Skip to content

tidy data #
Find similar titles

Structured data

Category
Computer science

Tidy data #

Tidy data #

Tidy data(깔끔한 데이터)는 Hadley Wickham이 2014년 The Journal of Statistical Software에서 발표한, 데이터 관리를 위한 새로운 개념이다. Tidy data를 우리말로 쉽게 풀이하면 '분석하기 좋은 데이터'로 표현할 수 있다. Hadley는 위 논문을 통해 데이터를 바라보는 새로운 시점을 제안하였고 이후 최근까지 짧은 시간 동안 200회에 가까운 인용 수를 기록하며 많은 관련 분야 연구원들에게 영향을 미치고 있다.

Tidy data의 특성 #

Hadley가 말하는 Tidy data는 Codd의 제3정규화(Codd's 3rd normal form)에 따른 다음의 특성을 지닌다.

1. 각 변수는 개별의 열을 이룬다. (Each variable forms a column.)
2. 각 관측치는 행을 이룬다. (Each observation forms a row.)
3. 관측 구성요소의 각각의 속성은 테이블을 이룬다. (Each type of observational unit forms a table.)

이와 대비되는 개념으로 지저분한 데이터(Messy data)는 데이터의 연결 관계보다 특정 데이터 셋에만 초점이 맞춰져 구성된 데이터이다.

Messy data를 Tidy data로 #

Messy data는 다음의 특성을 지닌다.

칼럼 헤더들이 변수 이름이 아닌 값이다.
다중 변수가 한 칼럼 내에 저장된다.
변수들이 행과 열 모두에 저장된다.
관측 유닛의 여러 속성들이 같은 테이블에 저장된다.
단일 관측 유닛이 여러 테이블에 저장된다.

Messt data를 Tidy data로 전환하는 관건은, 위의 Messy data를 Tidy data의 특성에 맞게 재구성하는 것이다.

Tidy data의 활용 #

Hadley는 Tidy data를 단순히 개념으로만 제안한 것이 아니라 실제 R언어에서 사용할 수 있는 패키지로 제작하여 배포하였다. 대표적인 패키지는 plyr, reshape2, ggplot2등이 있다.

0.0.1_20140628_0