Skip to content

기계학습 비지도학습 #
Find similar titles

비지도학습 #

비지도 학습은 데이터의 패턴을 찾는 기계 학습 기술의 한 종류이다. 비지도 학습에 제공된 데이터는 지도학습과 달리 레이블이 지정되지 않는다. 지도학습은 데이터를 주면 이전 사례로부터 학습하려고 시도한다. 반면 비지도 학습은 주어진 예제에서 패턴을 직접 찾으려고 한다. 즉 정답이 주어지지 않고, 입력에 대한 패턴, 특성 등을 학습을 통해 발견하는 방법이다. 예를 들어 Clustering은 비슷한 개체끼리 한 그룹으로, 다른 개체는 다른 그룹으로 묶어 군집화하는 것이다. 여기서 주의해야 할 점은 Clustering(군집)은 비지도 학습으로 지도학습인 Classification(분류)과 구별해야 한다는 점이다. Classification은 독립변수 X에 대한 종속변수 Y를 정답 셋으로 정해두고 새로운 독립변수 X를 입력했을 때 기존의 정답 셋을 참고하여 분류하고 이를 바탕으로 정답률을 확인할 수 있다. 하지만 Clustering은 정답이 없으므로 Classification처럼 정답률로 평가할 수 없다. 예를 들어 1,2,3,4,5,6의 데이터가 있고 이를 군집화할 때 (1,2), (3,4), (5,6)으로 나눈 것과 (1,2,3), (4,5,6)으로 나눈 것 그리고 (1,2,3), (4,5), (6)으로 군집화된 유형 중 어떤 것이 정답에 가까운지 알아내기가 쉽지 않다. 그래서 Clustering에는 군집 타당성 지표(Clustering Validity Index)가 있다.

군집 타당성 지표(Clustering Validity Index) #

군집 타당성 지표는 군집화된 데이터 자체를 기반으로 하는 내부 평가 체계로 1) 군집 간의 거리, 2) 군집의 이름, 3) 군집의 분산 등을 고려한다.

Dunn Index #

지표 중 Dunn Index는 군집 내 데이터 간의 거리의 최댓값을 기반으로 군집 간의 거리의 최솟값을 비교하여 이 군집화가 얼마나 타당성이 있는지를 알려준다. 이것을 아래의 수학식으로 표현할 수 있다.

1.최대 거리를 계산

markdown

2.모든 쌍 사이의 평균 거리 계산

markdown

3.평균으로부터 모든 점의 거리 계산

markdown

위의 과정을 통해 m 개의 군집이 있을 때 Dunn Index는 최종적으로 다음과 같이 정의

markdown

군집 간 거리가 멀수록, 군집 내 분산은 작을수록 군집화가 잘 된 결과이다. 따라서 가장 높은 Dunn Index 수치를 가진 클러스터링 알고리즘이 군집화가 잘된 것으로 평가된다.

참고문헌 #

  • Dunn index 1
  • 비지도학습 2
0.0.1_20140628_0