안녕하세요! 저는 3일 전에 생일이라서 놀다가 이렇게 일요일에 돌아오게 되었습니다~
각설하고 바로 다음 데이터 전처리 기능인 파생변수 추가하기! 시작하도록 하겠습니다!
파생변수를 만드는 것은 우리가 이전에 dplyr 함수를 사용하기 전에도 새로운 변수명을 만들어서 데이터 프레임 속에 넣었던 기억이 있어야 합니다! 있을거에요! 있어야 하고요! 이전에는 df$total 이런 식으로 새로운 변수를 만들고 $를 활용하여 집어 넣었답니다!
두 가지 방법의 차이점에서 기인하는 장점은 dplyr 함수의 경우 변수명 앞에 데이터 프레임명을 반복 입력하지 않기 때문에 더 간결한 코드를 얻을 수 있다는 것입니다!
하지만, 이번 챕터에서는 $를 활용하는 것이 아닌 mutate 괄호 내에 새로운 변수명 = 변수들의 조합을 해줌으로써 total이라는 새로운 변수를 만들었고, 이를 파이프 연산자를 활용하여 total에 대해 오름차순 정렬 후 6행까지만 추출한 결과를 볼 수 있습니다! (이뿐만 아니라, 사칙연산도 모두 가능하니 여러 방식으로 실행해보세요!)
이때, 여러 파생변수를 한 번에 추가할 수도 있습니다! 방법은 mutate 함수 내에 1번 파생변수, 2번 파생변수를 이어서 입력하면 됩니다! 이때는 가독성을 위해 1번 파생변수, 에서 엔터를 눌러 줄을 바꿔주면 좋겠죠?!
이렇게 가독성도 높이고 한 번에 처리하여 효율도 높이는 방법을 알아보았습니다!
다음으로는 사칙연산이 아닌 우리가 일상 생활에서 시험 점수를 통해 pass, fail을 받은 경험과 같이 특정 점수를 기준으로 하나의 문자를 입력해야할 경우도 있을 것입니다. 이때는 앞에서도 많이 다루었듯이 ifelse 함수를 활용하여 파생변수 = ifelse~로 이루어진 구문을 만들면 됩니다!
test라는 파생변수가 과학 점수 60점을 기준으로 pass, fail의 결과를 받을 수 있게끔 입력한 코드입니다. pass / fail은 문자이기 때문에 항상 ""사이에 넣어야 한다는 것 잊지마세요!
파생변수는 여기까지!
'R' 카테고리의 다른 글
데이터 분석 시작기-11 (데이터 전처리 - 데이터 합치기; left_join, bind_rows) (0) | 2023.01.29 |
---|---|
데이터 분석 시작기-10 (데이터 전처리 - 집단별로 요약하기;group_by, summarise) (0) | 2023.01.29 |
데이터 분석 시작기-8 (데이터 전처리 - 변수 추출 및 정렬;select, arrange) (0) | 2023.01.24 |
데이터 분석 시작기-7 (데이터 전처리 - 행 추출;filter) (0) | 2023.01.24 |
데이터 분석 시작기-6 (변수명 바꾸기 & 파생변수 만들기 w/ dplyr) (0) | 2023.01.18 |