R을 활용한 간단한 데이터 전처리

library(tidyverse)
library(readxl)

air <- read_excel('./data/data_past_time.xls')

#첫번째 row 삭제
air = air[-1,]


#air$월일 = substr(air$날짜,1,5)
#str_sub도 같은 기능을 수행하지만 추가적인 기능이 있음
air$PM2.5 <- as.numeric(air$PM2.5)

#날짜 변수 생성
air %>% 
  mutate(date = str_sub(날짜,1,5)) %>%

#PM2.5 >= 100 추출  
air %>% 
  mutate(date = str_sub(날짜,1,5)) %>%
  filter(air$PM2.5 >= 100) %>%

#날짜 별로 나누기  
air %>% 
  mutate(date = str_sub(날짜,1,5)) %>%
  filter(air$PM2.5 >= 100) %>%
  group_by(date) %>%
  count() 

#날짜 별로 count
air %>% 
  mutate(date = str_sub(날짜,1,5)) %>%
  filter(air$PM2.5 >= 100) %>%
  group_by(date) %>%
  count() 

#count 함수를 써도 되지만 summarise 함수가 더 안정적
air %>% 
  mutate(date = str_sub(날짜,1,5)) %>%
  filter(air$PM2.5 >= 100) %>%
  group_by(date) %>%
  summarise(
    n = n()
  )