■ 기술 통계와 추론 통계

- 기술 통계(Descriptive statistics): 데이터를 요약해 설명하는 통계 기법 (ex. 사람들이 받는 월급을 집계해 전체 월급 평균을 구함 / EDA 과정을 거쳐 데이터를 설명)

- 추론 통계(Inferential statistics): 단순히 숫자를 요약하는 것을 넘어 어떤 값이 발생할 확률을 계산하는 통계 기법

(ex. 수집된 데이터에서 성별에 따라 월급에 차이가 있는 것으로 나타났을 때, 이런 차이가 우연히 발생할 확률을 계산해서 이 확률이 0.05 작다면 성별에 따른 월급 차이가 통계적으로 유의하다(statistically significant)고 결론 내린다. 반대로 이런 차이가 우연히 나타날 확률이 0.05보다 크다면 성별에 따른 월급 차이가 통계적으로 유의하지 않다(not statistically significant)고 결론 내린다.

 

통계적으로 유의하다(statistically significant) = p-value가 0.05보다 작다

통계적으로 유의하지 않다(not statistically significant) = p-value가 0.05보다 크거나 같다.

(p-value = 오류. 왜 0.05인지는 밑에서 설명)

 

 

■ 통계적 가설 검정

통계적 가설 검정(Statistical hypothesis test)란?

- 유의확률을 이용해 가설을 검정하는 방법

 

유의확률(Significance probability, p-value)란?

- 실제로는 집단 간 차이가 없는데 우연히 차이가 있는 데이터가 추출될 확률을 의미

 

 

1. 가설의 종류

** 귀무가설(영가설): 0이다, 존재하지 않는다. (H0)

** 대립가설(위와 대립되는 가설): 0이 아니다, 존재 한다. (H1)

 

2. 가설검정(Hypothesis test)

- 객관적인 증거는 일반적으로 95% 정도 필요 == 오류가 5% 이하

① 객관적인 증거 95%↓  =  오류 5% ↑   ☞  H0

② 객관적인 증거 95%↑  =  오류 5% ↓   ☞  H1

 

3. 유의수준 ( 제 1종 오류 (α) )

- 제 1종 오류 (α): H0이 참인데, H1으로 잘못 선택하는 오류  >>  오류를 기준으로 잡음. 5% 이하의 오류

 

 

 

(출처; 가천대학교 컴퓨터공학과, 이영호 교수님)

'Probability & Statistics > Lecture Summary' 카테고리의 다른 글

통계 분석 기법을 이용한 가설 검정  (0) 2019.05.30
ggplot2 더 알아보기  (0) 2019.05.29
190314 (목) Data, EDA  (0) 2019.03.13

 

<통계 분석 절차>

① 분석방법 선정

② 분석하고자 하는 목적에 따른 귀무가설(영가설)과 대립가설 설정

③ 분석도구 (SPSS, R 등) 검정통계량 실행 및 확인

④ 유의수준(α) 결정: 0.1, 0.05, 0.01

⑤ 유의확률(P) 확인

⑥ 유의확률과 유의수준 비교 (< α)

⑦ 귀무가설과 대립가설 선택

⑧ 분석 결론

 

 

<기초통계원리>

 

 

 

(출처; 가천대학교 컴퓨터공학과, 이영호 교수님)

'Probability & Statistics > Lecture Summary' 카테고리의 다른 글

통계적 가설 검정이란?  (0) 2019.06.01
ggplot2 더 알아보기  (0) 2019.05.29
190314 (목) Data, EDA  (0) 2019.03.13

 

<치트 시트>

- ggplot2에는 색, 크기, 폰트 등 그래프의 세부적인 요소들을 조절할 수 있는 다양한 기능이 있다. 치트시트(Cheat Sheet)라는 패키지 사용법을 요약한 매뉴얼을 참고하면 자주 사용하는 기능들을 한 눈에 볼 수 있다.

- R 스튜디오 메뉴에서 [Help -> Cheatsheets -> Data Visualization with ggplot2] 클릭

https://www.rstudio.com/resources/cheatsheets/

 

RStudio Cheat Sheets

Cheat sheets make it easy to learn about and use some of our favorite packages.

www.rstudio.com

 

 

<ggplot2로 만든 다양한 그래프와 코드들>

- ggplot2를 이용하면 거의 모든 종류의 그래프를 만들 수 있다. (사용자들이 만든 그래프와 코드)

http://www.r-graph-gallery.com/portfolio/ggplot2-package/

 

General Ggplot2 Tips

  Sponsors   Customization with theme() With ggplot2, the appearance of the plot is controlled using the theme function. It allows you to control each of the elements of a graph: axis, ba…

www.r-graph-gallery.com

 

 

<확장 패키지들>

- ggplot2에 새로운 형태의 그래프를 만들 수 있는 함수를 추가한 확장 패키지들이 지속적으로 개발되고 있음.

http://www.ggplot2-exts.org/gallery/

 

http://www.ggplot2-exts.org/gallery/

ggQQunif Star Make QQ plots for big data expected to be uniformly distributed, e.g. p-values. stopauthor: rcorty stoptags: visualization,quantiles,p-values,statistics,big data stopjs libraries: more_vert --> true ggQQunifclose (full meta data to go here) x

www.ggplot2-exts.org

 

 

 

(출처; 가천대학교 컴퓨터공학과, 이영호 교수님)

(출처; 쉽게 배우는 R 데이터 분석, 김영우)

< 데이터 Table >


변수: Name, Age, Sex 등, 머신러닝에서는 '피처'라고 함

데이터: 정보를 담고 있는 table 한 줄, 한 줄


* 탐색적 자료 분석 ( EDA : Exploratory Data Analysis ) 


1. 데이터 가지고 오기

- 데이터 가지고 오기 > 데이터 읽기 > 데이터를 임포트하여 메모리에 올리기


2. 데이터 모양 확인

3. 데이터 타입 확인

4. 데이터 기초 분석

5. 데이터 클린징

6. 데이터 시각화


>> 위의 6가지 과정을 토대로 '의사결정'


* 데이터 형식

- 정형 데이터 : 고정된 형식으로 저장된 데이터

- 반정형 데이터 : 고정된 형식은 아니지만 기본구조가 있는 데이터

- 비정형 데이터 : 고정된 형식이 없는 데이터


※ 데이터 양 = 컴퓨팅 파워


(출처: 가천대학교 이영호 교수님)

(출처: Do it! 쉽게 배우는 R 데이터 분석, 김영우)

+ Recent posts