<쉽게 배우는 R 데이터 분석 p.123>

문제 1. ggplot2의 midwest 데이터를 프레임 형태로 불러온 다음 데이터의 특징을 파악하세요.

 

 

문제 2. poptotal(전체 인구) 변수를 total로, popasian(아시아 인구) 변수를 asian으로 수정하세요.

(변수명이 바뀐 모습을 보이고 싶었는데, dplyr 패키지가 설치가 안돼서 일단은 코드만 작성했습니다.)

 

 

문제 3. total, asian 변수를 이용해 '전체 인구 대비 아시아 인구 백분율' 파생변수를 만들고, 히스토그램을 만들어 도시들이 어떻게 분포하는지 살펴보세요.

 

 

문제 4. 아시아 인구 백분율 전체 평균을 구하고, 평균을 초과하면 "large", 그 외에는 "small"을 부여하는 파생변수를 만들어 보세요.

 

 

문제 5. "large"와 "small"에 해당하는 지역이 얼마나 되는지 빈도표와 빈도 막대그래프를 만들어 확인해 보세요.

 

(large 119, small 318)

 

 

(출처; 쉽게 배우는 R 데이터 분석, 김영우)

1. R

- R은 오픈소스 프로그램으로, 통계/데이터 마이닝 및 그래프를 위한 언어

 

2. R이 강력한 이유

1) 무료로 사용할 수 있는 오픈 소스

2) 오픈소스 생태계 - 다양한 패키지, 최신 분석 기법

3) 다양한 교육 재료

4) 다양한 그래프 구현 가능 (재현성 확보, 오류 감소, 공동 작업 가능)

 

3. R과 R Studio 설치하기

- R을 익히려면 PC에 R과 R Studio가 설치되어 있어야 한다. 

- R 설치 > R Studio 설치 (순서대로)

 

*R Studio란?

- R을 사용하기 편리하게 만들어주는 IDE 소프트웨어

 

*IDE 소프트웨어란?

- IDE(Integrated Development Environment, 통합 개발 환경)는 코딩, 파일 관리, 배포 등 프로그래밍에 필요한 다양한 작업을 수행할 수 있는 소프트웨어

 

4. R Studio 실행 후 오류가 난다면?

- 오류 1. R Studio 관리자 권한으로 실행되지 않은 경우

(1) R Studio 바로가기 아이콘을 마우스 오른쪽 버튼으로 클릭한 후 [속성] > [호환성]을 클릭

(2) [관리자 권한으로 이 프로그램 실행]에 체크한 후 [확인]

- 오류 2. 윈도우 사용자 계정이 한글로 되어 있는 경우

(1) [Windows 설정]에서 [계정] > [가족 및 다른 사용자] > [이 PC에 다른 사용자 추가] 클릭

(2) '이 사람의 로그인 정보를 가지고 있지 않습니다' 클릭 후 'Microsoft 계정 없이 사용자 추가' 클릭

(3) '사용자 이름'에 영문자 이름을 입력한 후 [다음] 클릭

(4) 키보드 윈도우 버튼 + X를 누른 후 [종료 또는 로그아웃] > [로그아웃]을 클릭해 로그아웃

(5) 윈도우 시작 화면에서 화면 왼쪽 아래에 있는 새로 만든 영문 계정을 클릭해 로그인

 

(출처 : Do it! 쉽게 배우는 R 데이터 분석, 김영우)

< 데이터 Table >


변수: Name, Age, Sex 등, 머신러닝에서는 '피처'라고 함

데이터: 정보를 담고 있는 table 한 줄, 한 줄


* 탐색적 자료 분석 ( EDA : Exploratory Data Analysis ) 


1. 데이터 가지고 오기

- 데이터 가지고 오기 > 데이터 읽기 > 데이터를 임포트하여 메모리에 올리기


2. 데이터 모양 확인

3. 데이터 타입 확인

4. 데이터 기초 분석

5. 데이터 클린징

6. 데이터 시각화


>> 위의 6가지 과정을 토대로 '의사결정'


* 데이터 형식

- 정형 데이터 : 고정된 형식으로 저장된 데이터

- 반정형 데이터 : 고정된 형식은 아니지만 기본구조가 있는 데이터

- 비정형 데이터 : 고정된 형식이 없는 데이터


※ 데이터 양 = 컴퓨팅 파워


(출처: 가천대학교 이영호 교수님)

(출처: Do it! 쉽게 배우는 R 데이터 분석, 김영우)

+ Recent posts