Table of Contents
군집화 #
- 군집화(CLUSTERING)이란 관측값 또는 개체를 의미 있는 몇 개의 부분 집단으로 나누는 과정을 의미하며 여기서 나뉜 부분집단을 군집이라 명칭 한다. 다양한 분야에서 응용되고 있는데 특히 마케팅에서 많이 활용되며 유사한 고객을 묶어 군집을 형성하고 각 군집의 특성을 분석하여 각 군집에 맞는 마케팅 방법을 찾아 타겟 마케팅 프로그램을 개발할 수 있다.
개체 간 유사성의 계산 방법 #
계층적 군집화 #
- 계층적 군집화는 비계층적 군집화에 비하여 군집의 수에 대한 사전 지식을 필요하지 않지만 한 계층에서 어떤 군집에 할당되면 그 계층 아래에서는 다른 위 계층에서 나뉜 다른 군집으로 할당될 수 없다는 특징을 가지게 되어 종종 탐색적인 의미로 사용된다.
- 응집분석(agglomerative analysis)
- 각 개체를 하나의 군집으로 보고 가까운 군집끼리 합해 나가는 분석
- 분할분석(divisive analysis)
- 개체 전체를 하나의 군집으로 보고 각 군집을 두 개의 군집으로 계속 나누는 분석
응집분석 #
- 응집분석의 알고리즘
- 각 객체를 하나의 군집으로 하여 전체 n개의 군집형성
- 각 군집 간의 거리를 계산하여 가장 가까운 두 개의 군집을 합침
- 전 개체가 하나의 군집이 될 때까지 군집을 계속 합침
단일연결법 #
- 단일연결법은 최단연결방법(nearest-neighbor)이라고도 한다.
- 두 군집 P와 Q간의 거리는 P에 속한 개체와 Q에 혹한 개체 간의 거리 중에서 가장 작은 거리를 두 군집 간의 거리로 한다.
완전연결법 #
평균연결법 #
분할분석 #
- 큰 군집을 둘로 나누는 계층적 군집화 방법이다. 대표적인 분할 분석으로는 코프먼과 루시우의 DIANA(DIvisive ANAlysis)알고리즘이 이용됨
DIANA 알고리즘 #
- 개체와 군집의 거리를 구할 때 평균 연결법 사용
- 분할분석은 전체를 하나의 군집으로 하고 하나의 군집이 둘로 나뉘는 과정을 거쳐 계층적 군집분석을 행함
출처: (http://m.blog.daum.net/boy7407/17462895?categoryId=995743):
비계층적 군집화: K-평균 군집화 #
- 계층적 군집화와 달리 군집 수를 미리 정하고 군집화를 수행하며 대표적인 방법으로 K-평균 군집화가 있다.
K-평균 군집분석 알고리즘 방법 #
- 각 군집에 대하여 중심점의 초기값을 구함, 초기값을 구하는 방법으로는 계층적 군집분석의 결과를 이용하여 구한 군집의 평균을 이용하는 방법, 난수를 통하여 중심점을 구하는 방법, 개체를 임의로 선택하여 중심점으로 하는 방법 등이 있다.
- 각 관측값에서 k개의 중심점까지의 거리를 계산하여 중심점이 가장 가까운 군집으로 각 관측값을 재할당
- 각 관측값에 대한 군집의 변화가 없으면 중지하고, 변화가 있으면 이전 작업을 반복 수행
K-평균 군집화에서 군집 수 및 초기값 정하는 방법 #
-
군집 수 결정방법
- 다양한 군집의 수에 대하여 K-평균 군집화를 수행하고 최종군집에 대하여 각 개체로부 터 중심점까지의 평균거리를 구하여 각 군집 수에 대하여 그림을 그려봄
- 이 평균거리는 군집 수가 작을수록 커지고 군집 수가 많을수록 작아짐, 평균거리가 처음 에는 급격하게 작아지다가 나중에는 평평해지는데 평균거리가 군집 수를 선택
-
초기값 설정
- 다양한 초기값을 가지고 주어진 군집 수에 대하여 K-평균 군집화를 수행하고 최종군집에서 중심점까지의 평균거리를 구하여 이들 중 가장 작은 평균거리를 갖는 초기값에 대한 군집을 선택
-
군집 수와 초기값 문제를 해결하는 또 다른 방법
- 계층적 군집화의 결과 이용
- 먼저 계층적 군집화를 시행하고 계층적 군집화로부터 군집수화 형성된 군집으로부터 중심점을 구한 후, 이 결과를 가지고 K-평균 군집화를 수행