■ 선 그래프 - 시간에 따라 달라지는 데이터 표현하기

선 그래프(Line Chart): 데이터를 선으로 표현한 그래프

- 시간에 따라 달라지는 데이터를 표현할 때 이용  >> 공식: x축 - 시간(날짜)

 

** 시계열 데이터(Time Series Data): 일정 시간 간격을 두고 나열된 데이터 ex. 일별 환율

** 시계열 그래프(Time Series Chart): 시계열 데이터를 선으로 표현한 그래프

 

(1) 시계열 그래프 만들기

- economics는 미국의 경제 지표들을 월별로 나타낸 데이터

- 시간에 따라 실업자 수가 어떻게 변하는지 나타낸 시계열 그래프

- x축에는 시간(date), y축에는 실업자 수(unemploy)를 지정하고, 선 그래프를 표현하는 함수 geom_line() 사용

ggplot(data = economics, aes(x = date, y = unemploy)) + geom_line()

>> 실업자 수가 약 5년 주기로 등락을 반복하고, 2005년 이후 급격하게 증가했다가 2010년 이후 다시 감소하는 추세라는 것을 알 수 있음

 

(2) <혼자서 해보기>

Q. psavert(개인 저축률)가 시간에 따라 어떻게 변해 왔는지 알아보려고 합니다. 시간에 따른 개인 저축률의 변화를 나타낸 시계열 그래프를 만들어 보세요.

- x축에는 시간(date), y축에는 변화를 알아보려는 psavert를 지정하고, 선 그래프를 나타내는 함수 geom_line()을 이용

ggplot(data = economics, aes(x = date, y = psavert)) + geom_line()

 

 

 

■ 상자 그림 - 집단 간 분포 차이 표현하기

상자 그림(Box Plot): 데이터의 분포를 직사각형 상자 모양으로 표현한 그래프

- 상자 그림을 보면 분포를 알 수 있기 때문에 평균만 볼 때보다 데이터의 특징을 더 자세히 이해할 수 있다.

- 보통 x축에 범주형, y축에 연속형

- drv(구동 방식)별 hwy(고속도로 연비)를 상자 그림으로 표현하려면 x축을 drv, y축을 hwy로 지정한 후 상자 그림으로 표현하도록 하는 geom_boxplot() 함수를 사용

ggplot(data = mpg, aes(x = drv, y = hwy)) + geom_boxplot()

>> 상자 그림은 값을 크기 순으로 나열해 4등분 했을 때 위치하는 값인 '사분위수'를 이용해 그려짐.

 

상자 그림이 의미하는 내용 / 1.5 IQR: 사분위 범위(Q1~Q3 간 거리)의 1.5배

 

 

 

 

 

(출처; 가천대학교 컴퓨터공학과, 이영호 교수님)

(출처; 쉽게 배우는 R 데이터 분석, 김영우)

+ Recent posts