Skip to content

Normalization #
Find similar titles

Structured data

Category
Algorithm

정의 #

실험에 의해 나온 결과 값들의 범위를 일치시켜서 분포를 유사하게 맞춰주는 작업

방법 #

평균값을 이용한 방법과 중간값을 이용한 방법, Quantile 방법이 있는데 평균값을 이용한 방법은 평균에 해당하는 값은 0으로 놓고, 평균에서 멀어질 수록 값을 크게 매깁니다. 일반적으로 데이터에서 평균을 빼준 후 표준편차로 나눠주는 작업을 z-transformation이라고 합니다.

두 번째로 중간값을 이용한 방법이 있습니다. 평균값을 이용한 normalization방법과 유사하게 평균값 대신, 중간값을 빼주는 방식으로 값을 보정합니다. 이 경우는 보통 데이터가 많이 튄 경우에 사용하게 됩니다. 튄 값이 많을 경우, 평균값이 잘 못 구해질 수 있기 때문에 중간값을 이용하여 normalization을 하게 됩니다. ‘중간값’이란 데이터를 오름차순으로 정렬했을 때, 가장 중간에 위치한 값을 말합니다.

세 번째로 Quantile normalization 방법이 있는데, 이 방법은 ‘상위 몇 %에 해당하는 값’을 구하는 것과 비슷합니다. 서로 다른 Data set의 noise가 심할 경우, 분포가 크게 달라질 수 있기 때문에 Quantile 방법을 쓰면 간단하게 값을 보정할 수 있습니다.

Data set 1: 1, 3, 8, 2, 4, 6, 7

Data set 2: 9, 8, 0, 2, 4, 1, 3

이라고 가정해볼 때, 순위를 1부터 7까지 맞춰줍니다.

그리고 순위가 같을 것끼리 평균을 내줍니다. 그러면 다음과 같이 값을 변환할 수 있습니다.

그림 1. (출처: http://adnoctum.tistory.com/184)

그림 2. (출처: http://adnoctum.tistory.com/184)

Incoming Links #

Related Data Sciences #

Related Bioinformaticses #

0.0.1_20140628_0