■ 선 그래프 - 시간에 따라 달라지는 데이터 표현하기
선 그래프(Line Chart): 데이터를 선으로 표현한 그래프
- 시간에 따라 달라지는 데이터를 표현할 때 이용 >> 공식: x축 - 시간(날짜)
** 시계열 데이터(Time Series Data): 일정 시간 간격을 두고 나열된 데이터 ex. 일별 환율
** 시계열 그래프(Time Series Chart): 시계열 데이터를 선으로 표현한 그래프
(1) 시계열 그래프 만들기
- economics는 미국의 경제 지표들을 월별로 나타낸 데이터
- 시간에 따라 실업자 수가 어떻게 변하는지 나타낸 시계열 그래프
- x축에는 시간(date), y축에는 실업자 수(unemploy)를 지정하고, 선 그래프를 표현하는 함수 geom_line() 사용
ggplot(data = economics, aes(x = date, y = unemploy)) + geom_line()
>> 실업자 수가 약 5년 주기로 등락을 반복하고, 2005년 이후 급격하게 증가했다가 2010년 이후 다시 감소하는 추세라는 것을 알 수 있음
(2) <혼자서 해보기>
Q. psavert(개인 저축률)가 시간에 따라 어떻게 변해 왔는지 알아보려고 합니다. 시간에 따른 개인 저축률의 변화를 나타낸 시계열 그래프를 만들어 보세요.
- x축에는 시간(date), y축에는 변화를 알아보려는 psavert를 지정하고, 선 그래프를 나타내는 함수 geom_line()을 이용
ggplot(data = economics, aes(x = date, y = psavert)) + geom_line()
■ 상자 그림 - 집단 간 분포 차이 표현하기
상자 그림(Box Plot): 데이터의 분포를 직사각형 상자 모양으로 표현한 그래프
- 상자 그림을 보면 분포를 알 수 있기 때문에 평균만 볼 때보다 데이터의 특징을 더 자세히 이해할 수 있다.
- 보통 x축에 범주형, y축에 연속형
- drv(구동 방식)별 hwy(고속도로 연비)를 상자 그림으로 표현하려면 x축을 drv, y축을 hwy로 지정한 후 상자 그림으로 표현하도록 하는 geom_boxplot() 함수를 사용
ggplot(data = mpg, aes(x = drv, y = hwy)) + geom_boxplot()
>> 상자 그림은 값을 크기 순으로 나열해 4등분 했을 때 위치하는 값인 '사분위수'를 이용해 그려짐.
(출처; 가천대학교 컴퓨터공학과, 이영호 교수님)
(출처; 쉽게 배우는 R 데이터 분석, 김영우)
'Programming Language > R' 카테고리의 다른 글
11. 지도 시각화 (0) | 2019.05.31 |
---|---|
10. 텍스트 마이닝 (0) | 2019.05.30 |
08 그래프 만들기 (1) - 산점도, 막대 그래프 (0) | 2019.05.29 |
07. 데이터 정제하기 - 이상치 (0) | 2019.05.27 |
07. 데이터 정제하기 - 결측치 (0) | 2019.05.27 |