1. R

- R은 오픈소스 프로그램으로, 통계/데이터 마이닝 및 그래프를 위한 언어

 

2. R이 강력한 이유

1) 무료로 사용할 수 있는 오픈 소스

2) 오픈소스 생태계 - 다양한 패키지, 최신 분석 기법

3) 다양한 교육 재료

4) 다양한 그래프 구현 가능 (재현성 확보, 오류 감소, 공동 작업 가능)

 

3. R과 R Studio 설치하기

- R을 익히려면 PC에 R과 R Studio가 설치되어 있어야 한다. 

- R 설치 > R Studio 설치 (순서대로)

 

*R Studio란?

- R을 사용하기 편리하게 만들어주는 IDE 소프트웨어

 

*IDE 소프트웨어란?

- IDE(Integrated Development Environment, 통합 개발 환경)는 코딩, 파일 관리, 배포 등 프로그래밍에 필요한 다양한 작업을 수행할 수 있는 소프트웨어

 

4. R Studio 실행 후 오류가 난다면?

- 오류 1. R Studio 관리자 권한으로 실행되지 않은 경우

(1) R Studio 바로가기 아이콘을 마우스 오른쪽 버튼으로 클릭한 후 [속성] > [호환성]을 클릭

(2) [관리자 권한으로 이 프로그램 실행]에 체크한 후 [확인]

- 오류 2. 윈도우 사용자 계정이 한글로 되어 있는 경우

(1) [Windows 설정]에서 [계정] > [가족 및 다른 사용자] > [이 PC에 다른 사용자 추가] 클릭

(2) '이 사람의 로그인 정보를 가지고 있지 않습니다' 클릭 후 'Microsoft 계정 없이 사용자 추가' 클릭

(3) '사용자 이름'에 영문자 이름을 입력한 후 [다음] 클릭

(4) 키보드 윈도우 버튼 + X를 누른 후 [종료 또는 로그아웃] > [로그아웃]을 클릭해 로그아웃

(5) 윈도우 시작 화면에서 화면 왼쪽 아래에 있는 새로 만든 영문 계정을 클릭해 로그인

 

(출처 : Do it! 쉽게 배우는 R 데이터 분석, 김영우)

< 데이터 Table >


변수: Name, Age, Sex 등, 머신러닝에서는 '피처'라고 함

데이터: 정보를 담고 있는 table 한 줄, 한 줄


* 탐색적 자료 분석 ( EDA : Exploratory Data Analysis ) 


1. 데이터 가지고 오기

- 데이터 가지고 오기 > 데이터 읽기 > 데이터를 임포트하여 메모리에 올리기


2. 데이터 모양 확인

3. 데이터 타입 확인

4. 데이터 기초 분석

5. 데이터 클린징

6. 데이터 시각화


>> 위의 6가지 과정을 토대로 '의사결정'


* 데이터 형식

- 정형 데이터 : 고정된 형식으로 저장된 데이터

- 반정형 데이터 : 고정된 형식은 아니지만 기본구조가 있는 데이터

- 비정형 데이터 : 고정된 형식이 없는 데이터


※ 데이터 양 = 컴퓨팅 파워


(출처: 가천대학교 이영호 교수님)

(출처: Do it! 쉽게 배우는 R 데이터 분석, 김영우)

+ Recent posts