■ 기술 통계와 추론 통계
- 기술 통계(Descriptive statistics): 데이터를 요약해 설명하는 통계 기법 (ex. 사람들이 받는 월급을 집계해 전체 월급 평균을 구함 / EDA 과정을 거쳐 데이터를 설명)
- 추론 통계(Inferential statistics): 단순히 숫자를 요약하는 것을 넘어 어떤 값이 발생할 확률을 계산하는 통계 기법
(ex. 수집된 데이터에서 성별에 따라 월급에 차이가 있는 것으로 나타났을 때, 이런 차이가 우연히 발생할 확률을 계산해서 이 확률이 0.05 작다면 성별에 따른 월급 차이가 통계적으로 유의하다(statistically significant)고 결론 내린다. 반대로 이런 차이가 우연히 나타날 확률이 0.05보다 크다면 성별에 따른 월급 차이가 통계적으로 유의하지 않다(not statistically significant)고 결론 내린다.
통계적으로 유의하다(statistically significant) = p-value가 0.05보다 작다
통계적으로 유의하지 않다(not statistically significant) = p-value가 0.05보다 크거나 같다.
(p-value = 오류. 왜 0.05인지는 밑에서 설명)
■ 통계적 가설 검정
통계적 가설 검정(Statistical hypothesis test)란?
- 유의확률을 이용해 가설을 검정하는 방법
유의확률(Significance probability, p-value)란?
- 실제로는 집단 간 차이가 없는데 우연히 차이가 있는 데이터가 추출될 확률을 의미
1. 가설의 종류
** 귀무가설(영가설): 0이다, 존재하지 않는다. (H0)
** 대립가설(위와 대립되는 가설): 0이 아니다, 존재 한다. (H1)
2. 가설검정(Hypothesis test)
- 객관적인 증거는 일반적으로 95% 정도 필요 == 오류가 5% 이하
① 객관적인 증거 95%↓ = 오류 5% ↑ ☞ H0
② 객관적인 증거 95%↑ = 오류 5% ↓ ☞ H1
3. 유의수준 ( 제 1종 오류 (α) )
- 제 1종 오류 (α): H0이 참인데, H1으로 잘못 선택하는 오류 >> 오류를 기준으로 잡음. 5% 이하의 오류
(출처; 가천대학교 컴퓨터공학과, 이영호 교수님)
'Probability & Statistics > Lecture Summary' 카테고리의 다른 글
통계 분석 기법을 이용한 가설 검정 (0) | 2019.05.30 |
---|---|
ggplot2 더 알아보기 (0) | 2019.05.29 |
190314 (목) Data, EDA (0) | 2019.03.13 |