Skip to content

Data mining 연관규칙의 발굴 및 나무모형 #
Find similar titles

Structured data

Category
Database

연관규칙의 발굴 #

연관규칙이란 #

  • 연관규칙이란 상업 데이터베이스에서 가장 흔히 쓰이는 도구로서 어떤 사건(예:특정 상품 구매)이 얼마나 자주 동시에 발생하는가를 표현하는 규칙 또는 조건을 의미한다.

연관규칙의 활용 #

  • 고객이 구매한 상품리스트 분석 시(연관규칙)
    • 고객들은 어떤 상품을 동시 구매하는가
    • 수건을 구매한 고객들은 어떠한 다른 상품들을 구매하는가

연관규칙의 평가 측도 #

Image

그림 1. 연관규칙의 평가 예시 및 평가 법 (출처: R Friend)

연관규칙과 순차 분석의 차이 #

Image

그림 2. 연관규칙과 순차 분석의 차이 (출처: R Friend)

연관규칙의 절차 #

  • 일반적으로 세 단계를 통하여 반복적인 분석으로 연관규칙을 찾는다.
    1. 적절한 품목과 수준을 선택한다.
    2. 연관규칙 도출한다.
    3. 적절한 연관규칙의 분석 및 최종규칙을 선택한다.

연관규칙의 장단점 #

장점 #

  • 연관규칙은 다른 데이터마이닝 도구보다 사용이 쉬움
  • 연관규칙을 도출하는 알고리즘이 신경망 등 다른 알고리즘에 비교하여 단순하고 간단

단점 #

  • 연관규칙은 품목 수가 증가함에 따라 계산량이 매우 증가
  • 연속형 변수 등에서 연관규칙을 구하기 힘들며 항목 수를 정하기 어렵고 거래가 드문 품목에 대한 규칙을 찾기 힘듦

나무모형 분석 #

나무모형이란 #

  • 나무모형 분석이란 분석과정을 나무구조로 도형화하여 분류분석 혹은 회귀분석을 수행하는 최신 분석 기법이다.(예 타이타닉호 탑승자의 생존 여부)

Image

그림 3. 나무모형 분석과정의 예시 (출처: BRIC)

분할법칙 #

자료의 분할과정 #

  • 분할 후 생성된 노드에 속하는 자료의 순수도(Purity)가 가장 크게 증가하도록 재귀적으로 진행되는데, 이는 분할기준이 되는 변수와 분할의 위치를 결정하는 반복적 작업으로 표현된다.

순수도의 증가 #

  • 분할 후 각 노드에 속하는 자료의 구성이 이산형의 목표변수(target variable)를 기준으로 어느 한 클래스만에 속하는 자료의 비율이 높다는 것을 의미하며 대부분의 나무모형 알고리즘에는 불순도 측도를 사용한다.

불순도 함수 #

Image

그림 4. 불순도 함수 수식(출처: 데이터 마이닝)

나무모형의 가지치기 #

  • 가지치기란 나무모형을 최대한 모형화 후 가지가 많은 나무로부터 분류성능 향상에 도움이 되지 못하는 가지(부분)를 잘라내는 것이다.

가지치기의 이유 #

  • 나무모형이 계속 분할되면 불순도는 지속적으로 감소
  • 최소의 불순도를 나타내는 나무모형이 결코 새로운 자료에 대해서도 좋은 분류성능을 가지지 않음
  • 과적합 방지 및 정확도 향상

나무모형의 장단점 #

장점 #

  • 누구나 쉽게 이해할 수 있는 모형
  • 변수 간의 교호작용 관계를 표현
  • 변수종류에 상관없이 사용 가능
  • 계산속도가 빠르고 대형자료 처리에 용이

단점 #

  • 변수 간의 교호작용이 지나치게 강조될 수 있음
  • 재귀적인 알고리즘을 사용하므로 결과가 초기의 분할에 큰 영향을 받음
  • 나무모형은 과대적학된 모형이 작성되기 쉬워 예측력이 낮을 가능성 높음

Incoming Links #

Related Data Sciences #

0.0.1_20140628_0