07-2. 이상한 데이터를 찾아라! - 이상치 정제하기

이상치(Outlier)란?

- 정상 범주에서 크게 벗어난 값

 

이상치 제거하기 - 존재할 수 없는 값

1. 이상치가 포함된 데이터 생성 (sex는 1과 2만 나올 수 있고, score는 1부터 5까지의 값만 들어갈 수 있음)

4행의 sex와 6행의 score에 이상치 확인 가능

 

2. 이상치 확인하기

table(outlier$sex)
table(outlier$score)

 

3. 결측 처리하기 - 이상치를 결측치로 변환, ifelse()를 이용해 이상치일 경우 NA 부여

#sex가 3이면 NA 부여
outlier$sex <- ifelse(outlier$sex == 3, outlier$sex)

4행의 sex 값이 NA로 변환

# score가 5초과면 NA 할당
outlier$score <- ifelse(outlier$score > 5, NA, outlier$score)

6행의 score 값이 NA로 변환

4. 결측치 제외 후 성별에 따른 score 평균 구하기

outlier %>%
	filter(!is.na(sex)&!is.na(score)) %>%
    group_by(sex) %>%
    summarise(mean_score = mean(score))

 

 

(출처; 쉽게 배우는 R 데이터 분석, 김영우)

+ Recent posts