전체 글 (19) 썸네일형 리스트형 데이터 분석 시작기-19 (단계 구분도 만들기) 안녕하세용! 거의 한 달만의 포스팅입니다,, 개인적으로 기록하며 포트폴리오 느낌으로 꾸준히 만들어보려 했으나,, 하와이에 와 있습니다! 어학연수를 3월 초에 와서 이곳에서 현생을 살다 보니 휴양지 느낌을 거의 3주를 만끽하고 제 본업인 학생임을 잊고 살았네요ㅠㅠ 그래도 열심히 해보겠습니다! 각설하고, 이번에는 단계 구분도를 만들어 보려 합니다. 단계 구분도란, 지역별 통계치를 색깔의 차이로 표현한 지도입니다! 이를 통해 인구나 소득 같은 특성이 지역별로 얼마나 다른지 쉽게 이해할 수 있습니다! 두 가지 데이터를 통해 단계 구분도를 만들어 볼 것이며, 첫 번째 데이터는 '미국 주별 강력 범죄율', 두 번째 데이터는 '대한민국 시도별 인구, 결핵 환자 수'입니다! 바로 시작해 보시죠! 단계 구분도를 만들기 .. 데이터 분석 시작기-18 (텍스트 마이닝) 안녕하십니까! 3주만에 돌아왔습니다,, 그동안 여행도 다녀오고 책을 혼자 진행해보고 다시 업로드 하는 식으로 하다보니 이렇게 오래 걸렸네요! 죄송합니다.. ㅎㅎㅎㅎ 꾸준히 업로드 해보겠습니다!!!! 이번 포스팅은 텍스트 마이닝에 대해 진행해 볼 예정입니다! 문자로 된 데이터에서 가치 잇는 정보를 얻어 내는 분석 기법을 '텍스트 마이닝'이라고 합니다. 텍스트 마이닝을 진행하기 전에, 문장을 구성하는 어절들이 어떤 품사로 되어 있는지 파악하는 '형태소 분석' 작업을 진행합니다! 명사, 동사, 형용사 등 의미를 지닌 품사의 단어를 추출해 각 단어들이 어느 정도의 빈도로 나타났는지 확인해야하죠! 이번 챕터에서는 음악 가사, SNS 속 글을 분석해보도록 하겠습니다! 저는 지금까지 R을 공부하면서 가장 어렵고 진행.. 데이터 분석 시작기-17 (데이터 분석 프로젝트_3) 데이터 분석 프로젝트 마지막 포스팅입니다!!! 지금~~~~~ 시작합니다! #9-7 성별 직업 빈도 - "성별로 어떤 직업이 가장 많을까?" 성별, 직업 모두 이전 포스팅에서 변수 검토 및 전처리를 마무리했습니다! 기억 안나면 이전 포스트로! 그러면 바로 step2) 변수 간 관계 분석 성별 변수와 직업 변수에 대한 빈도표를 만들어야겠죠? job_male % + filter(!is.na(job) & sex == "male") %>% + group_by(job) %>% + summarise(n = n()) %>% + arrange(desc(n)) %>% + head(10) > job_male # A tibble: 10 × 2 job n 1 작물재배 종사자 640 2 자동차 운전원 251 3 경영관련 사무원 .. 데이터 분석 시작기-16 (데이터 분석 프로젝트_2) 바로 다음 이어서 가겠습니다! #9-4 연령대에 따른 월급의 차이 - "어떤 연령대의 월급이 가장 많을까?" 9-3에서 한 것과 유사하지만 나이가 아닌 연령대로 보겠습니다! 연도 변수를 활용하여 나이 변수를 파생한 것처럼 연도 변수를 활용하여 연령대 변수를 만들어 활용하면 정답~ 임의로 다음과 같이 기준을 설정해보겠습니다. 범주 기준 초년 30세 미만 중년 30~59세 노년 60세 이상 step1) 변수 검토 및 전처리 ifelse 함수를 두 번 활용하여 세 개의 범주를 나눠주면 됩니다! 여기선 mutate 함수도 같이 해줘야합니다! welfare % + mutate(ageg = ifelse(age < 30, "young", + ifelse(age < 60, "middle", "old"))) table(.. 데이터 분석 시작기-15 (데이터 분석 프로젝트_1) 오랜만에 돌아왔습니다! 책을 다시금 블로그로 포스팅하는데도 되게 오래걸리는 것 같네요,, 물론 쉬엄쉬엄 하기도 했지만! 오늘부터는 책에 있는 데이터 분석 프로젝트에 대해 포스팅을 시작해보려 합니다. 9장 내에 총 9개의 분석 프로젝트가 있어서, 3개의 작은 챕터씩 한 포스트에 다뤄보겠습니다! #9-1 '한국복지패널데이터' 준비하기 먼저, 9장의 프로젝트를 시작하기 전 '한국복지패널데이터'를 준비하겠습니다! 책에 나와있는 깃허브 혹은 한국복지패널 사이트에 가입 후 데이터를 무료로 다운로드할 수 있습니다. 데이터는 보통의 통계분석 소프트웨어(SPSS, SAS, STATA) 전용 파일로 제공됩니다! 우리는 SPSS 전용 파일을 받았기 때문에 foreign 패키지를 사용하여 SPSS, SAS, STATA 등 다.. 데이터 분석 시작기-14 (그래프 만들기) 데이터 분석에서 가장 중요한 것은 데이터간의 관계, 데이터의 특징을 한 눈에 파악할 수 있는 가독성을 가져야 한다는 것입니다. 데이터를 보기 쉽게 그림으로 표현한 것을 '그래프'라고 하며, 이를 통해 추세와 경향성이 드러나기 때문에 가독성을 갖고 파악이 쉬워집니다. 이번 포스트에서는 산점도, 막대 그래프, 선 그래프, 상자 그림을 통해 각 그래프가 갖는 장점들과 어떤 상황에서 어떤 그래프를 선택하여야 하는지도 간단히 다뤄보겠습니다. 모든 그래프는 ggplot2 패키지를 사용하여 만들겠습니다! library(ggplot2) 쉽고 짧은 문법으로 가장 많이 사용하는 패키지입니다! 그래프를 만들기 전, ggplot2 레이어 구조를 이해하고 시작해보겠습니다. ggplot2 문법은 1단계 : 배경 설정(축) - 2.. 데이터 분석 시작기-13 (데이터 정제- 이상치 제거) 이번 포스트는 결측치 다음으로 이상치 정제에 대해 알아보겠습니다! 먼저, 이상치(Outlier)란 정상 범주에서 크게 벗어난 값입니다. 데이터 수집 과정에서 오류가 발생할 수 있기 때문에 현장에서 만들어진 실제 데이터는 이상치가 포함될 수 있습니다. 뿐만 아니라 저도 여러 실험을 학부생으로서 진행하면서 크게 튀는 값들이 종종 나오곤 했습니다. 이러한 값들로 인해 분석 결과가 왜곡되기 때문에 항상 정제하는 과정을 거쳐야합니다! 이상치는 존재할 수 없는 값과 극단적인 값. 두 가지 경우가 존재할 수 있으며, 먼저 존재할 수 없는 값에 대해 알아보겠습니다! 본 책에서는 남성과 여성을 숫자 변수 1과 2로 표시하는 데이터 중에서 1과 2 둘 다 아닌 3이 들어간 데이터를 다루고 있습니다. 또한, 1~5 점까지의.. 데이터 분석 시작기-12 (데이터 정제- 결측치 제거 및 대체) 지난 포스트까지는 데이터 전처리 과정에 대해 전체적으로 다루어 보았습니다! 데이터를 다루기 이전에 우리가 분석하기 이전에 필요한 데이터만을 취한다거나 필요한 데이터의 형식으로 만드는 과정을 거쳤다고 생각하면 좋을 것 같습니다! 이번 포스트부터는 우리가 얻은 데이터에 포함된 오류를 수정하기 위해 거쳐야 하는 정제 과정에 대해 다뤄보도록 하겠습니다! # 빠진 데이터 찾기 - 결측치 정제하기 먼저, 결측치(Missing Value)란 누락된 값, 비어 있는 값을 의미합니다. 데이터 수집 과에서 발생한 오류로 인해 결측치를 포함하고 있을 때가 많아서, 이를 정제하는 과정을 거쳐 분석 결과가 왜곡되지 않게끔 해주어야 합니다. R에서는 결측치를 NA로 표기합니다. 코드 출력 결과는 문자로 구성된 변수는 로 출력되며.. 이전 1 2 3 다음