07-2. 이상한 데이터를 찾아라! - 이상치 정제하기
이상치(Outlier)란?
- 정상 범주에서 크게 벗어난 값
■ 이상치 제거하기 - 존재할 수 없는 값
1. 이상치가 포함된 데이터 생성 (sex는 1과 2만 나올 수 있고, score는 1부터 5까지의 값만 들어갈 수 있음)
2. 이상치 확인하기
table(outlier$sex)
table(outlier$score)
3. 결측 처리하기 - 이상치를 결측치로 변환, ifelse()를 이용해 이상치일 경우 NA 부여
#sex가 3이면 NA 부여
outlier$sex <- ifelse(outlier$sex == 3, outlier$sex)
# score가 5초과면 NA 할당
outlier$score <- ifelse(outlier$score > 5, NA, outlier$score)
4. 결측치 제외 후 성별에 따른 score 평균 구하기
outlier %>%
filter(!is.na(sex)&!is.na(score)) %>%
group_by(sex) %>%
summarise(mean_score = mean(score))
(출처; 쉽게 배우는 R 데이터 분석, 김영우)
'Programming Language > R' 카테고리의 다른 글
08 그래프 만들기 (2) - 선 그래프, 상자 그림 (0) | 2019.05.29 |
---|---|
08 그래프 만들기 (1) - 산점도, 막대 그래프 (0) | 2019.05.29 |
07. 데이터 정제하기 - 결측치 (0) | 2019.05.27 |
06. 자유자재로 데이터 가공하기 (0) | 2019.05.27 |
분석 도전! (쉽게 배우는 R 데이터 분석 p.160) (0) | 2019.05.26 |