본문 바로가기

R

데이터 분석 시작기-8 (데이터 전처리 - 변수 추출 및 정렬;select, arrange)

저번 포스트에 이어서 이번엔 수많은 변수(열)들 중에 일부 변수만 추출해 활용하고자 할 때 사용하는 select() 함수에 대해 알아보겠습니다!

데이터는 같은 exam 데이터를 사용할 예정입니다!

 

#2 필요한 변수만 추출하기

코드를 입력하는 방법은 이전의 filter 함수와 동일하게 입력해 주면 됩니다!

대신, 괄호 안에는 ==를 사용하는 것이 아닌 해당 변수의 이름을 입력하면 성공!

수학 변수만 추출한 결과

이때, 한 개의 변수뿐만 아니라 여러 가지 변수를 한 번에 추출할 수도 있습니다! 방법은 괄호 안에 ,(comma)를 사용하여 연결해 주면 완성!

또한, 해당 변수만을 제외한 결과를 얻고 싶다면 변수 앞에 -를 입력해 주면 됩니다! 이것도 -를 붙여 ,(comma) 로 이어주면 해당 변수들을 제외한 결과를 얻을 수 있습니다!

수학을 제외한 변수들만 추출한 결과

 

여기서 dplyr 함수들을 더 가독성 있게 사용하는 방법을 알려드리려고 합니다. dplyr 함수들은 pipe operator(%>%)를 사용하여 조합하여 사용할 수 있습니다! 이때, 파이프 연산자를 기준으로 엔터를 입력하여 줄을 바꿔가면서 입력하면 가독성도 좋아질 뿐 아니라 여러 함수들을 한 번에 입력할 수 있다는 장점이 있습니다!

10행 까지의 id, math 변수를 추출

보시는 바와 같이 파이프 연산자를 기준으로 엔터를 해줌으로써 줄을 바꾸고, select 함수와 head 함수를 연결하여 결과를 얻은 것입니다! 이때, 줄을 바꾸고 dplyr 구문 전체를 함께 실행해야 하며, 드래그하지 않고 구문 내 아무 곳에서 Ctrl + Enter로 실행하면 됩니다!

 

select 함수는 여기까지!

 

다음은 순서대로 정렬하는 arrange 함수입니다!

저는 군대에서 복무하면서 엑셀을 다루고, 이때 가장 많이 사용한 것이 정렬하는 기능이었습니다! 그만큼 우리가 실험을 진행하고 어떠한 데이터를 분석함에 있어 정렬은 매우 중요하다고 생각되는데요! 그럼 알아보겠습니다~

 

arrange 함수는 괄호 안에 정렬 기준으로 삼을 변수명을 입력하면 됩니다!

기본적으로 해당 변수에 대해 오름차순으로 정렬이 될 것입니다. 물론 내림차순으로도 정렬을 할 수 있습니다!

수학을 오름차순으로 정렬한 결과

보시는 바와 같이 exam 데이터에서 math를 기준으로 오름차순 하여 정렬한 결과를 볼 수 있었습니다!

만약, 내림차순으로 하고 싶다면 arrange 괄호 안에 desc()를 넣고 그 안의 괄호에 기준을 삼을 변수를 넣으면 됩니다!

수학을 내림차순으로 정렬한 결과

arrange 함수 내에서도 한 개의 기준이 아니라 두 개 이상의 기준을 삼을 수도 있습니다. 이는 ,(comma)를 사용하여 이어 입력하면 되고, 앞에 입력된 변수를 기준으로 정렬 후 그 내부에서 순서대로 다음 기준에 대해 정렬됩니다

반에 대해 정렬 후 수학 점수를 정렬한 결과

보시는 바와 같이 class에 대해 오름차순이 먼저 진행되고, 그 후 반 별로 수학 점수에 대해 오름차순이 된 것을 볼 수 있습니다.

arrange 함수도 여기까지입니다!

저도 하나하나의 함수를 볼 때는 쉽다고 느껴졌는데, 이것들을 조합하게 되면서 어려움을 겪게 되더라고요..
차근차근 제가 진행하면서 어려움을 겪었던 부분과 간단한 내용까지 다뤄보겠습니다!



감사합니다!