Skip to content

기계학습 시각화 #
Find similar titles

Structured data

Category
Algorithm

기계학습/시각화 #

이번 장에서는 기계학습에서 데이터의 표현법에 대해 살펴보겠다. 기계학습에서 시각화는 정확한 학습모델을 만드는데 비중이 크다. 기계학습에서 시각화는 크게 '학습할 데이터 전처리', '학습 후 모델 간 성능 비교' 과정에서 필요하다. 기계학습에서 시각화는 '인지'와 '설득'의 목적으로 사용된다. 기계학습은 상호 독립적인 요인의 값을 통해 학습이 이루어진다. 개체를 구성하는 인자의 값만으로도 우리는 충분히 현재의 데이터로부터 예측모델의 성능을 유추할 수 있다. 따라서 데이터 전처리단계에서 시각화는 매우 중요하다. 이번 주제에서는 기계학습을 위한 데이터 시각화에 대해 다뤄보겠다.

기계학습자료의 시각화 #

특성 간 관계 #


기계학습에 사용되는 자료는 개체(subject)가 갖는 '특성(feature)'과 '값(value)'으로 이루어져 있다.

        예) 철수(개체)의 키(특성)는 190cm(값)이다.

다음은 개체의 농구선수 여부를 판단하는 기계학습의 예이다. 학습을 위해 철수로부터 키, 신발의 종류, 일주일 평균 농구경기 일 수, 하루 평균 컴퓨터게임 특성에 따른 값을 얻었다.

        예) 철수의 키(특성1)는 190cm이다. 하루에 평균 2시간 컴퓨터게임을 한다(특성2). 운동화(특성3)를 신고 있다. 평균적으로 일주일에 6일을 농구장에서 농구경기를 한다(특성4). 철수는 농구선수이다(특성5).

과연 위에서 언급된 특성들의 값들을 100명에게서 얻었다면 어떨까? 1,000명에게 얻은 데이터의 값을 보고 우리는 특성들 사이의 관계를 인지할 수 있을까? 어려울 것이다. 하지만 이 자료를 가시화해보자.

Image


그림의 A 그래프에서 특성1(Feature 1)에 따라 농구선수 여부(Feature 5)를 판단할 수 있음을 알 수 있다. 반면 B의 경우 평균 컴퓨터게임 시간(Feature 2)은 농구선수 여부와 차이가 없다. C 그래프에서 우리는 키와 평균 컴퓨터게임 시간이 관계가 없음을 알 수 있다. 그리고 마지막 D 그래프를 통해 우리는 앞서 A, B, C에서 얻은 정보를 한눈에 인지할 수 있다. 가시화를 통해 개체가 수백, 수만 개가 되어도 우리는 개체 특성의 관계를 인지하는데 어려움이 없다.
이렇게 가시화를 통해 우리는 100명의 특성 값으로 부터 많은 정보를 쉽게 인지할 수 있다. 또 하나 중요한 점은 예측하려는 특성과 관련 없는 특징을 지움으로써 기계학습의 효율을 높일 수 있다는 것이다. 앞의 예시에서 가시화를 통해 특성5와 관련이 없는, 불필요한 특성2를 학습에서 제외하자는 결론을 내릴 수 있다.

쌍둥이 문제 #


앞서 몇 가지 특성에 대한 값으로 이루어진 자료를 살펴보았다. 이번에는 개체로 눈을 돌려보자. 만약 철수에게 쌍둥이 동생이 있다. 동생도 모든 특성의 값이 철수와 동일하다고 하면 학습을 위해 두 명의 자료가 모두 필요할까? 그렇지 않다. 이미 철수의 다른 특성값들과 농구선수 여부의 관계가 정해졌기 때문에 동생의 것은 추가적인 정보를 제공하지 않는다. 즉, 학습 자료로써 가치가 없다. 쌍둥이 개체의 또 다른 문제는 기계학습이 이루어질 때 불필요한 자료로 인한 기계학습 시간의 낭비이다. 100개체의 데이터가 50쌍의 쌍둥이로 이루어져 있다면, 우리는 예측에 필요 없는 50개체를 학습에서 배제함으로써 학습에 걸리는 시간을 절반으로 줄일 수 있다.

Image

위 밀도 그래프(density plot)에서 개체 간 거리는 가까울수록 0에 근접하고 멀어질수록 1에 근접한다. 대부분의 개체는 0.23 정도의 적정 거리를 보인다. 반면 빨간 원으로 표시된 개체들의 경우 0.0 값을 갖는 것을 확인할 수 있다. 다음은 특성 간의 관계이다.

Image

위 밀도 그래프는 특성 간 상관관계의 밀도를 표시한 것이다. 개체 간 거리와 반대로 -1 또는 1과 가까울수록 특성 간 상관관계가 높은 것이고 0에 가까울 수록 관계가 없는 것이다. 대부분 -0.5~0.5의 관계상에 있지만 표시된 1.0에 역시 특성들이 존재하는 것을 알 수 있다.

마치며 #

이번 글을 통해 우리는 기계학습에 사용할 자료를 가시화하고 이해하는 방법을 살펴보았다. 기계학습에 사용될 자료의 특성, 관계를 파악함으로써 우리는 기계학습을 통해 예측된 결과에 대한 신뢰도를 높일 수 있을 것이다. 또 최소한의 정보로 정확한 예측 결과를 얻을 수 있다.

Suggested Pages #

0.0.1_20140628_0