Normalization
#
Find similar titles
- 최초 작성자
-
최근 업데이트
khcho@insilicogen.com
Structured data
- Category
- Algorithm
Table of Contents
정의 #
실험에 의해 나온 결과 값들의 범위를 일치시켜서 분포를 유사하게 맞춰주는 작업
방법 #
평균값을 이용한 방법과 중간값을 이용한 방법, Quantile 방법이 있는데 평균값을 이용한 방법은 평균에 해당하는 값은 0으로 놓고, 평균에서 멀어질 수록 값을 크게 매깁니다. 일반적으로 데이터에서 평균을 빼준 후 표준편차로 나눠주는 작업을 z-transformation이라고 합니다.
두 번째로 중간값을 이용한 방법이 있습니다. 평균값을 이용한 normalization방법과 유사하게 평균값 대신, 중간값을 빼주는 방식으로 값을 보정합니다. 이 경우는 보통 데이터가 많이 튄 경우에 사용하게 됩니다. 튄 값이 많을 경우, 평균값이 잘 못 구해질 수 있기 때문에 중간값을 이용하여 normalization을 하게 됩니다. ‘중간값’이란 데이터를 오름차순으로 정렬했을 때, 가장 중간에 위치한 값을 말합니다.
세 번째로 Quantile normalization 방법이 있는데, 이 방법은 ‘상위 몇 %에 해당하는 값’을 구하는 것과 비슷합니다. 서로 다른 Data set의 noise가 심할 경우, 분포가 크게 달라질 수 있기 때문에 Quantile 방법을 쓰면 간단하게 값을 보정할 수 있습니다.
Data set 1: 1, 3, 8, 2, 4, 6, 7 Data set 2: 9, 8, 0, 2, 4, 1, 3이라고 가정해볼 때, 순위를 1부터 7까지 맞춰줍니다.
그리고 순위가 같을 것끼리 평균을 내줍니다. 그러면 다음과 같이 값을 변환할 수 있습니다.
그림 1. (출처: http://adnoctum.tistory.com/184)
그림 2. (출처: http://adnoctum.tistory.com/184)