t 검정(t-test)란?

- 두 집단의 평균통계적으로 유의한 차이가 있는지 알아볼 때 사용하는 통계 분석 기법

- R에 내장된 t.test()를 이용해 t 검정 가능

 

 

■ ggplot2 패키지의 mpg 데이터를 이용해 compact 자동차와 suv 자동차의 도시 연비 t 검정을 수행

(1) mpg 데이터를 불러와 class, cty 변수만 남긴 뒤 class 변수가 "compact"인 자동차와 "suv"인 자동차를 추출

mpg <- as.data.frame(ggplot2::mpg)
library(dplyr)
mpg_diff <- mpg %>%
  select(class, cty) %>%
  filter(class %in% c("compact","suv"))
head(mpg_diff)

table(mpg_diff$class)

 

 

(2) t.test()를 이용해 t 검정

- 추출한 mpg_diff 데이터를 지정하고, ~ 기호를 이용해 비교할 값cty(도시 연비) 변수비교할 집단class(자동차 종류) 변수 지정

- t 검정은 비교하는 집단의 분산이 같은지 여부에 따라 적용하는 공식이 다름. (여기서는 집단 간 분산이 같다고 가정하고 var.equalT를 지정)

t.test(data = mpg_diff, cty ~ class, var.equal = T)

 

① 출력된 t 검정 결과에서 'p-value'가 유의확률을 의미

(블로그 좌측 [Probability $ Statistics >> Lecture Summary] 의 '통계적 가설 검정이란?' 포스팅 참고)

    - 일반적으로 유의확률 5%를 판단 기준으로 삼고, p-value가 0.05 미만이면 '집단 간 차이가 통계적으로 유의하다'고 해석. 실제로는 차이가 없는데 이런 정도의 차이가 우연히 관찰된 확률이 5%보다 작다면, 이 차이를 우연이라고 보기 어렵다는 결론. 'p-value < 2.2e - 16'은 유의확률이 2.2*10^-16 보다 작다는 의미이므로 여기서 p-value가 0.05보다 작다는 의미이다.

따라서 이 분석 결과는 'compact 와 suv 간 평균 도시 연비 차이가 통계적으로 유의하다'고 해석할 수 있다.

 

② 'sample estimates'

    - 'sample estimates' 부분을 보면 각 집단의 cty 평균이 나타나 있음. "compact"는 20인 반면, "suv"는 13이므로, "suv"보다 "compact"의 도시 연비가 더 높다고 할 수 있음

 

 

 

 

(출처; 가천대학교 컴퓨터공학과, 이영호 교수님)

(출처; 쉽게 배우는 R 데이터 분석, 김영우)

■ 기술 통계와 추론 통계

- 기술 통계(Descriptive statistics): 데이터를 요약해 설명하는 통계 기법 (ex. 사람들이 받는 월급을 집계해 전체 월급 평균을 구함 / EDA 과정을 거쳐 데이터를 설명)

- 추론 통계(Inferential statistics): 단순히 숫자를 요약하는 것을 넘어 어떤 값이 발생할 확률을 계산하는 통계 기법

(ex. 수집된 데이터에서 성별에 따라 월급에 차이가 있는 것으로 나타났을 때, 이런 차이가 우연히 발생할 확률을 계산해서 이 확률이 0.05 작다면 성별에 따른 월급 차이가 통계적으로 유의하다(statistically significant)고 결론 내린다. 반대로 이런 차이가 우연히 나타날 확률이 0.05보다 크다면 성별에 따른 월급 차이가 통계적으로 유의하지 않다(not statistically significant)고 결론 내린다.

 

통계적으로 유의하다(statistically significant) = p-value가 0.05보다 작다

통계적으로 유의하지 않다(not statistically significant) = p-value가 0.05보다 크거나 같다.

(p-value = 오류. 왜 0.05인지는 밑에서 설명)

 

 

■ 통계적 가설 검정

통계적 가설 검정(Statistical hypothesis test)란?

- 유의확률을 이용해 가설을 검정하는 방법

 

유의확률(Significance probability, p-value)란?

- 실제로는 집단 간 차이가 없는데 우연히 차이가 있는 데이터가 추출될 확률을 의미

 

 

1. 가설의 종류

** 귀무가설(영가설): 0이다, 존재하지 않는다. (H0)

** 대립가설(위와 대립되는 가설): 0이 아니다, 존재 한다. (H1)

 

2. 가설검정(Hypothesis test)

- 객관적인 증거는 일반적으로 95% 정도 필요 == 오류가 5% 이하

① 객관적인 증거 95%↓  =  오류 5% ↑   ☞  H0

② 객관적인 증거 95%↑  =  오류 5% ↓   ☞  H1

 

3. 유의수준 ( 제 1종 오류 (α) )

- 제 1종 오류 (α): H0이 참인데, H1으로 잘못 선택하는 오류  >>  오류를 기준으로 잡음. 5% 이하의 오류

 

 

 

(출처; 가천대학교 컴퓨터공학과, 이영호 교수님)

'Probability & Statistics > Lecture Summary' 카테고리의 다른 글

통계 분석 기법을 이용한 가설 검정  (0) 2019.05.30
ggplot2 더 알아보기  (0) 2019.05.29
190314 (목) Data, EDA  (0) 2019.03.13

+ Recent posts