본문 바로가기

R

데이터 분석 시작기-2 (Variable and Function)

# 데이터 분석을 위한 간단한 개념

변수는 '변하는 수'

소득 성별 학점 국적
100만원 4.27 대한민국
200만원 4.38 대한민국
300만원 4.44 대한민국

소득 / 성별 / 학점은 변하는 수(variable), 국적은 변하지 않는 상수(constant)입니다.

우리는 변하는 수인 변수 간의 어떤 관계가 있는지 파악하는 것이 주 목적입니다.

 

R 언어에서 변수를 만들기

위 그림은 우리가 주로 만들고자 하는 변수를 R에서 만들어 가는 것입니다.

이렇게 만든 변수를 사칙연산을 통해 연산할 수도 있으며, 여러 가지 활용을 할 수 있습니다.

여러 가지 변수 생성

위 그림은 단순히 a, b 등 알파벳에 변수를 집어넣는 것이 아니라, 실제로 우리가 흔히 사용하는 score, grade 등 영어로 된 변수를 생성하는 모습을 간단히 var1, var2 (variable1, 2)로 묘사한 것입니다.

 

이때, c(1, 2, 5, 7, 8) 은 combine의 c를 활용하여 여러 개의 숫자를 합쳐 하나의 변수로 생성하는 것입니다.

seq를 활용할 수도 있으며, 1은 시작 숫자, comma를 기점으로 5는 마지막 숫자를 의미합니다.

seq( , , by = n) 은 n 간격 연속 값으로 생성하는 것을 의미합니다.

 

다음은 함수에 관한 설명입니다.

"데이터 분석은 함수로 시작해서 함수로 끝난다."

 

초반에 다뤄볼 함수는 위에서 다뤘던 Combine(c()) 와 평균을 나타내는 함수 mean() 이 있습니다.

Combine, mean function.

 

x라는 대상에 c를 활용하여 1, 2, 3이라는 숫자를 할당하여 변수를 만들고, 이를 mean 함수를 활용하여 x 변수의 평균을 구해보는 과정입니다. 쉽죠?

 

이뿐만 아니라, 최댓값을 나타내는 max(), 최솟값을 나타내는 min() 등이 있습니다.

 

# Parameter : 함수의 옵션을 설정하는 명령어이다. '매개변수'라고 하기도 합니다. 함수들이 저마다 다른 기능을 하는 파라미터를 가지고 있고, 이를 자유자재로 활용할 수 있습니다.

 

한 번 알아볼 파라미터는 collapse = ","입니다.

이는 변수 안에 들어있는 대상들을 하나의 대상으로 합치는 기능을 paste 함수에서 합니다.

paste( , collapse = ",")

 

이번엔 데이터 분석의 대상이 되는 "변수"에 대해 알아보았으며, 이들을 함수라는 도구를 통해 분석하는 것에 대해 알아보았습니다!

 

감사합니다!