Skip to content

Data mining 자료탐색 및 군집화 #
Find similar titles

Structured data

Category
Database

자료탐색 #

  • 데이터 마이닝에서 이용되는 자료(data)는 관심의 대상이 되는 사물이나 사건의 속성을 일정하고 같은 규칙에 따라 측정, 관찰 또는 조사함으로 써 얻을 수 있다. 조사된 데이터는 다양한 데이터 마이닝이 적용되는 다양한 분야에서 얻어진다. 자료를 구성하는 가장 기본이 되는 개체를 단위 또는 케이스라고 하는데 단위는 관심의 대상인 모집단을 구성하고 있는 개별 조사대상이다. 변수는 각 단위에 대해 측정되는 특성, 속성을 의미한다.

자료의 구성요소 #

용어 설명
단위 관찰되는 항목,대상
관찰값 각 조사단위로부터 기록된 정보나 특성
변수 각 단위에 대해서 측정되는 특성
자료 하나 이상의 변수에 대한 관찰 값의 모임

변수의 종류 #

  • 수집된 자료를 이해하려면 우선 수집된 자료가 어떤 형태의 변수를 포함하고 있는지를 점검해야 한다.
용어 설명
질적 변수 성별, 거주지역 등과 같이 조사대상을 특성에 따라 범주로 구분하여 측정된 변수를 범주형 변수라고도 한다. 덧셈, 뺄셈의 연산을 할 수 없으며 범주의 순서 존재 여부에 따라 명목형과 순위형으로 구분된다. (예 명목형: 종교, 지역/ 순위형: 성적 A=100, B =80, C =60)
양적 변수 (이산형 변수) 변수가 취할 수 있는 값을 하나하나 셀 수 있는 경우(학생수, 물건수)
양적 변수 (연속형 변수) 변수가 구간 안의 모든 값을 가지는 경우 (길이, 무게)

일변량 데이터 탐색 #

  • 일변량 데이터(univariate data)란 각 단위에 대해 하나의 속성만 측정하여 얻게 되는 변수에 대한 자료를 말하며 단변량 자료라고도 한다. 일변량 데이터에 대한 탐색을 실시하는 방법에는 기술 통계량, 그래프 통계량 두 가지 종류가 있다.

기술 통계량 #

  • 중심위치의 측도
    • 평균
      • 평균은 중심위치 관측값의 합계를 자료의 개수로 나누어 구한다.
    • 중앙값
      • 중앙값은 전체 자료 값을 가장 작은 자료 값부터 크기 순서로 배열하고 가운데 위치 값을 중앙값이라 한다.
    • 사분위수
      • 중앙값의 크기순으로 정리된 자료 값을 4 등분 하는 값을 사분위수라 한다.
  • 산포의 측도

    • 분산과 표준편차
    • 범위
      • 범위는 자료를 크기순으로 배열하였을 때 가장 큰 자료 값과 가장 작은 자료 값의 차이
      • 범위 = 자료의 최대값 - 자료의 최소값
  • 원 그래프

    • 원그래프 전체를 구성하는 부분의 구성비를 나타낼 때 적합한 방법이다. 하나의 원이 전체 자료를 나타내고, 그 각각 구성되는 비율을 부채꼴의 조각으로, 즉 중심각의 크기로 나누어 나간다. 따라서 각 범주가 차지하는 비율을 파악하기 쉽다.

Image

출처: PTWIZ - 원 그래프

  • 막대 그래프

    • 막대 그래프는 각 범주에 속한 도수나 비율을 하나의 막대로 나타내는 기법이다.
  • 히스토그램

    • 연속형 자료에서도 도수분포표를 기초로 하여 각 계급에 대하여 범주형 자료에서의 막대 그래프와 같은 모양의 그림을 그릴 수 있는 그래프를 히스토그램이라고 한다.

Image

출처: Minitab.com - 히스토그램

이변량 데이터 탐색 #

  • 이변량 데이터란 각 단위에 대해 두 개의 특성을 측정하여 얻어진 두 개의 변수에 대한 자료를 말한다. 이변량 데이터의 탐색은 조사대상의 각 개체로부터 두 개의 특성을 동시에 관측하는 경우인데, 이러한 경우 일반적으로 두 변수 사이의 관계를 밝히려는 것이 관심의 대상이다.

  • 상관계수

    • 두 연속형 변수 X와 Y의 연관성 정도를 하나의 수치로 나타내는 척도로 주로 상관계수 r을 사용한다. 상관계수 r은 선형적 강도와 상관의 방향을 나타낸다.

Image

출처: 더북(TheBook), R을 이용한 데이터 처리 & 분석 실무

  • 산점도
    • 두 변수 간의 관계도 그림을 통하여 파악하는 방법이다.

Image

다변량 데이터 탐색 #

  • 다변량 데이터란 하나의 단위에 대해 두 가지 이상의 특성을 측정하는 경우 얻어지는 변수에 대한 자료를 말하는데 이변량 데이터도 다변량 데이터의 예라고 해도 무방하다. 다변량 데이터 역시 분석을 시행하기 이전에 산점도 행렬, 별그림, 등고선그림 등을 통해 시각적으로 자료를 탐색해 볼 필요가 있다.

  • 산점도 행렬

    • 산점도 행렬은 두 변수 간의 산점도를 행렬로 나타내 변수 간의 연관성을 표현한 그래프이다.
  • 별그림

    • 별그림은 별 모양의 점을 각각의 변수에 대응되도록 한 뒤 각각의 변수값에 비례하도록 반경을 나타내도록 하여 관찰 값을 그림으로 표시한 것이다.
  • 겨냥도그림

    • 겨냥도그림은 등간격의 격자 상에 높이 값을 갖는 행렬 자료에 대한 3차원 표현 방법으로 높이를 선으로 연결하여 두 변수에 따른 밀도 추정값을 시각적으로 표현하는 그림이다.

Reference #

  1. Commres.net - Anova
  2. PTWIZ - 원 그래프
  3. Minitab.com - 히스토그램
  4. 더북(TheBook), R을 이용한 데이터 처리 & 분석 실무

Incoming Links #

Related Data Sciences #

0.0.1_20140628_0