Data mining 연관규칙의 발굴 및 나무모형
#
Find similar titles
- (rev. 17)
- 백인우
Structured data
- Category
- Database
Table of Contents
연관규칙의 발굴 #
연관규칙이란 #
- 연관규칙이란 상업 데이터베이스에서 가장 흔히 쓰이는 도구로서 어떤 사건(예:특정 상품 구매)이 얼마나 자주 동시에 발생하는가를 표현하는 규칙 또는 조건을 의미한다.
연관규칙의 활용 #
- 고객이 구매한 상품리스트 분석 시(연관규칙)
- 고객들은 어떤 상품을 동시 구매하는가
- 수건을 구매한 고객들은 어떠한 다른 상품들을 구매하는가
연관규칙의 평가 측도 #
그림 1. 연관규칙의 평가 예시 및 평가 법 (출처: R Friend)
연관규칙과 순차 분석의 차이 #
그림 2. 연관규칙과 순차 분석의 차이 (출처: R Friend)
연관규칙의 절차 #
- 일반적으로 세 단계를 통하여 반복적인 분석으로 연관규칙을 찾는다.
- 적절한 품목과 수준을 선택한다.
- 연관규칙 도출한다.
- 적절한 연관규칙의 분석 및 최종규칙을 선택한다.
연관규칙의 장단점 #
장점 #
- 연관규칙은 다른 데이터마이닝 도구보다 사용이 쉬움
- 연관규칙을 도출하는 알고리즘이 신경망 등 다른 알고리즘에 비교하여 단순하고 간단
단점 #
- 연관규칙은 품목 수가 증가함에 따라 계산량이 매우 증가
- 연속형 변수 등에서 연관규칙을 구하기 힘들며 항목 수를 정하기 어렵고 거래가 드문 품목에 대한 규칙을 찾기 힘듦
나무모형 분석 #
나무모형이란 #
- 나무모형 분석이란 분석과정을 나무구조로 도형화하여 분류분석 혹은 회귀분석을 수행하는 최신 분석 기법이다.(예 타이타닉호 탑승자의 생존 여부)
그림 3. 나무모형 분석과정의 예시 (출처: BRIC)
분할법칙 #
자료의 분할과정 #
- 분할 후 생성된 노드에 속하는 자료의 순수도(Purity)가 가장 크게 증가하도록 재귀적으로 진행되는데, 이는 분할기준이 되는 변수와 분할의 위치를 결정하는 반복적 작업으로 표현된다.
순수도의 증가 #
- 분할 후 각 노드에 속하는 자료의 구성이 이산형의 목표변수(target variable)를 기준으로 어느 한 클래스만에 속하는 자료의 비율이 높다는 것을 의미하며 대부분의 나무모형 알고리즘에는 불순도 측도를 사용한다.
불순도 함수 #
그림 4. 불순도 함수 수식(출처: 데이터 마이닝)
나무모형의 가지치기 #
- 가지치기란 나무모형을 최대한 모형화 후 가지가 많은 나무로부터 분류성능 향상에 도움이 되지 못하는 가지(부분)를 잘라내는 것이다.
가지치기의 이유 #
- 나무모형이 계속 분할되면 불순도는 지속적으로 감소
- 최소의 불순도를 나타내는 나무모형이 결코 새로운 자료에 대해서도 좋은 분류성능을 가지지 않음
- 과적합 방지 및 정확도 향상
나무모형의 장단점 #
장점 #
- 누구나 쉽게 이해할 수 있는 모형
- 변수 간의 교호작용 관계를 표현
- 변수종류에 상관없이 사용 가능
- 계산속도가 빠르고 대형자료 처리에 용이
단점 #
- 변수 간의 교호작용이 지나치게 강조될 수 있음
- 재귀적인 알고리즘을 사용하므로 결과가 초기의 분할에 큰 영향을 받음
- 나무모형은 과대적학된 모형이 작성되기 쉬워 예측력이 낮을 가능성 높음