# 데이터 분석을 위한 간단한 개념
변수는 '변하는 수'
소득 | 성별 | 학점 | 국적 |
100만원 | 남 | 4.27 | 대한민국 |
200만원 | 여 | 4.38 | 대한민국 |
300만원 | 남 | 4.44 | 대한민국 |
소득 / 성별 / 학점은 변하는 수(variable), 국적은 변하지 않는 상수(constant)입니다.
우리는 변하는 수인 변수 간의 어떤 관계가 있는지 파악하는 것이 주 목적입니다.
위 그림은 우리가 주로 만들고자 하는 변수를 R에서 만들어 가는 것입니다.
이렇게 만든 변수를 사칙연산을 통해 연산할 수도 있으며, 여러 가지 활용을 할 수 있습니다.
위 그림은 단순히 a, b 등 알파벳에 변수를 집어넣는 것이 아니라, 실제로 우리가 흔히 사용하는 score, grade 등 영어로 된 변수를 생성하는 모습을 간단히 var1, var2 (variable1, 2)로 묘사한 것입니다.
이때, c(1, 2, 5, 7, 8) 은 combine의 c를 활용하여 여러 개의 숫자를 합쳐 하나의 변수로 생성하는 것입니다.
seq를 활용할 수도 있으며, 1은 시작 숫자, comma를 기점으로 5는 마지막 숫자를 의미합니다.
seq( , , by = n) 은 n 간격 연속 값으로 생성하는 것을 의미합니다.
다음은 함수에 관한 설명입니다.
"데이터 분석은 함수로 시작해서 함수로 끝난다."
초반에 다뤄볼 함수는 위에서 다뤘던 Combine(c()) 와 평균을 나타내는 함수 mean() 이 있습니다.
x라는 대상에 c를 활용하여 1, 2, 3이라는 숫자를 할당하여 변수를 만들고, 이를 mean 함수를 활용하여 x 변수의 평균을 구해보는 과정입니다. 쉽죠?
이뿐만 아니라, 최댓값을 나타내는 max(), 최솟값을 나타내는 min() 등이 있습니다.
# Parameter : 함수의 옵션을 설정하는 명령어이다. '매개변수'라고 하기도 합니다. 함수들이 저마다 다른 기능을 하는 파라미터를 가지고 있고, 이를 자유자재로 활용할 수 있습니다.
한 번 알아볼 파라미터는 collapse = ","입니다.
이는 변수 안에 들어있는 대상들을 하나의 대상으로 합치는 기능을 paste 함수에서 합니다.
이번엔 데이터 분석의 대상이 되는 "변수"에 대해 알아보았으며, 이들을 함수라는 도구를 통해 분석하는 것에 대해 알아보았습니다!
감사합니다!
'R' 카테고리의 다른 글
데이터 분석 시작기-6 (변수명 바꾸기 & 파생변수 만들기 w/ dplyr) (0) | 2023.01.18 |
---|---|
데이터 분석 시작기-5 (데이터 파악 및 수정) (0) | 2023.01.18 |
데이터 분석 시작기-4 (데이터 프레임 이해하기) (0) | 2023.01.17 |
데이터 분석 시작기-3 (패키지 이해하기) (0) | 2023.01.05 |
데이터 분석 시작기-1 (0) | 2023.01.04 |