본문 바로가기

R

데이터 분석 시작기-4 (데이터 프레임 이해하기)

오랜만에 돌아왔습니다!

블로그 작성하시는 분들 진짜 존경스럽습니다 ㅠㅠ 

각설하고 시작해 보도록 하죠!

 

데이터 프레임이란?

우리가 엑셀에서 많이 보는 하나의 프레임 형태로, 행과 열로 구성된 사각형 모양의 표라고 생각하면 됩니다!

예를 들어, 대학생들이 성적을 받을 때를 생각해 봅시다. 성별, 학년, 성적 등에 따라 여러 변수의 값을 얻을 수 있습니다.

 

성별 학년 성적
3 4.27
4 4.22
3 4.02

위의 표와 같이 하나의 자료를 보고 데이터 프레임이라고 합니다. 위 표는 3개의 열과 3개의 행으로 구성된 프레임입니다.

열은 성별, 학년, 성적의 세 가지 속성 / 행은 세 명의 자료임을 알 수 있습니다. 다른 말로, 이 표는 '3개의 속성에 대한 3명의 자료로 구성된 데이터 프레임'이라고 할 수 있습니다.

 

데이터 프레임을 이해하기 위해서는 데이터 프레임의 구성 요소에 대한 개념도 알아두면 좋다고 생각합니다!

간단하게 설명하고 넘어가자면, ''은 속성입니다. 성별, 학년, 성적의 속성입니다. 이는 Column, Variable이라고 부르기도 하고요.

''은 한 사람의 정보입니다. 가로로 나열되어 있는 정보들이 각 사람이 갖고 있는 정보죠. Row, Case라고 부르기도 하고요.

 

"데이터가 크다" = "행이 많다" or "열이 많다"라고 해석할 수 있습니다. 물론 둘 중에는 열이 많은 것이 중요합니다. 

행이 많은 것은 사람의 정보가 많은 것이고, 10명의 데이터를 분석하다가 1만 명의 데이터를 분석한다면 이는 좋은 장비를 구축하는 것이 답입니다. 하지만, 열이 많다면 데이터 분석의 핵심인 변수들의 관계를 파악하는 것에 대한 경우의 수가 늘어나게 됩니다. 따라서, 데이터의 양을 의미하는 행보다 데이터의 다양성을 의미하는 열이 많은 것이 분석의 측면에서 더 중요합니다.

 

R studio에서 데이터 프레임을 만들어보겠습니다.

 

네 명의 학생이 영어 / 수학 시험을 봤다고 가정하고 데이터 프레임을 만들어 보았습니다.

영어 점수 수학 점수
90 50
80 60
60 100
70 20

1. 변수 만들기

'english'라는 변수를 생성하기 위해 이전에 사용한 방법들(<-, c() )를 활용해 데이터들을 입혀줍니다.

'math'도 동일한 방법으로 입혀줍니다.

2. 데이터 프레임 만들기

데이터 프레임을 만들 때, 함수는 data.frame()을 이용합니다. 괄호 안에는 데이터 프레임을 구성할 변수를 쉼표로 나열하면 됩니다. 우리의 데이터 프레임 이름은 df_midterm (df를 붙여 두면 다른 변수들과 구별하기 쉽습니다.)

 

3. 학생 열 정보 만들기 & 데이터 프레임에 삽입

이전 'english', 'math'를 만든 것과 같이 'class' 변수를 생성해 주고, 이를 같은 방식으로 데이터 프레임에 삽입하는 과정입니다. 여기까지 데이터 프레임을 만드는 과정입니다.

 

다음으로, 만들어진 데이터 프레임을 분석하는 과정을 진행해 보겠습니다.

만들어진 데이터 프레임을 활용하여, 전체 학생의 영어 점수, 수학 점수 등 함수와 조합하여 사용할 수 있습니다.

4. 데이터 프레임 분석하기(평균)

4번에서 함수를 다룰 때, $ 기호는 df_midterm에 존재하는 변수를 지정할 때 사용합니다.

 

2번과 3번에서 만든 데이터 프레임은 변수를 먼저 만든 후, 이를 데이터 프레임에 삽입하는 과정을 거쳤습니다.

이번에는 조금 다른 방식으로 한 번에 데이터 프레임 안에 변수와 값을 나열해서 한 번에 만들어 보겠습니다.

5. 데이터 프레임 한 번에 만들기

 

이번 게시글에선 데이터 프레임에 대한 개략적인 개념과 데이터 프레임을 만들어 보는 과정을 거쳤습니다! 

감사합니다!