<쉽게 배우는 R 데이터 분석 p.160>
문제 1. popadults 는 해당 지역의 성인 인구, poptotal은 전체 인구를 나타냅니다. midwest 데이터에 '전체 인구 대비 미성년 인구 백분율' 변수를 추가하세요.
문제 2. 미성년 인구 백분율이 가장 높은 상위 5개 country(지역)의 미성년 인구 백분율을 출력하시오.
문제 3. 다음과 같은 분류표의 기준에 따라 미성년 비율 등급 변수를 추가하고, 각 등급에 몇 개의 지역이 있는지 알아보세요.
library(ggplot2)
data <- data %>% mutate(level = ifelse(data$total >= 40, "large",
ifelse(data$county > 30, "middle", "small")))
table(data$level)
qplot(data$level)
large middle small
32 396 9
문제 4. popasian은 해당 지역의 아시아인 인구를 나타냅니다. '전체 인구 대비 아시아인 인구 백분율' 변수를 추가하고 하위 10개 지역의 state(주), county(지역), 아시아인 인구 백분율을 출력하세요.
data <- midwest %>%
mutate(tot_asian = (popasian/poptotal)*100) %>%
arrange(tot_asian) %>%
select(state, county, tot_asian) %>%
tail(10)
data
(출처; 쉽게 배우는 R 데이터 분석, 김영우)
'Programming Language > R' 카테고리의 다른 글
07. 데이터 정제하기 - 결측치 (0) | 2019.05.27 |
---|---|
06. 자유자재로 데이터 가공하기 (0) | 2019.05.27 |
05. 데이터 분석 기초 - 데이터 파악하기, 다루기 쉽게 수정하기 (0) | 2019.04.18 |
04. 데이터 프레임의 세계 (0) | 2019.04.18 |
분석 도전! (쉽게 배우는 R 데이터 분석 p.123) (0) | 2019.04.04 |