Skip to content

Multiple test adjustment #
Find similar titles

Structured data

Category
Experiment

개요 #

발현분석(Expression analysis)은 실험군과 대조군에서 차이나는 유전자(혹은 단백질)를 찾고, 발현 차이를 보이는 유전자들과 관련된 기능이나 pathway를 알아내는 과정을 거친다. 이때 정말로 의미있는 차이를 보이는 DEGs(Differentially expressed genes)를 찾아내기 위해서 대조군에 비해 실험군에서 발현된 유전자가 몇 배 증가 했는지 또는 감소했는지를 보여주는 fold-change와, 대조군과 실험군의 유전자가 발현에 차이가 없다라는 귀무 가설을 기각하는(즉, 차이가 있다고 말 할 수 있는) P-value를 이용한다. 이때 다중검정에(multiple tests)에 의한 제 1종 오류가 증가하는 문제가 발생한다. 보통 오믹스(Omics) 분석을 하면 한 실험 데이터로부터 몇 만개의 유전자에 대해여 가설 검정을 하게 되는데, 이때 하나의 유전자에 대한 유의수준을 모든 유전자에 동일하게 적용하면 1종 오류의 확률도 증가하게 된다. 즉, 가설검증을 통해 계산된 P-value가 유의수준(보통 0.05 미만)을 통과하는 유전자들은 위양성 결과를 포함할 가능성이 높다는 의미이다. 그래서 이 P-value를 보정해 주는 과정이 필요하며 그 과정을 다중검정보정(Multiple test adjustment)이라고 한다. 다중검정보정을 위한 방법은 크게 FWER (Family-wise Error Rate)과 FDR (False Discovery Rate)로 나눠진다.

FWER (Family-wise Error Rate) #

FWER를 계산하기 위한 방법으로 Bonferroni법이 많이 사용되는데, 가설검정을 많이 수행 할 수록 제 1종 오류가 증가하므로 유의수준을 가설검정을 수행한 수(즉, 유전자 수)로 나눠 유의 수준을 엄격하게 낮춰버리는 방법이다. 만약 1만개의 유전자에 대하여 실험군과 대조군의 발현값을 얻은 데이터에서 유의수준 0.05를 통과하는 유전자를 DEG로 정하기로 하였다면, 보정된 유의수준은 0.000005가 되며 P-value가 0.05미만인 유전자들이 DEG로 선발되게 된다. 이는 가설검정을 수행할 유전자의 수가 많을수록 매우 엄격한 기준을 제시하고, 제 1종 오류를 발생할 가능성이 적지만 그만큼 검정력이 낮아지게 된다. 오히려 유의한 차이를 보이는 유전자들도 필터링 하는 단점이 있다.

FDR (False Discovery Rate) #

FDR을 계산하기 위한 방법으로 Benjamini and Hochberg 법이 많이 사용된다. FDR은 유의하게 판정한 검정결과 중에서 잘 못된 검정 비율을 조정하는 방법이다. 즉 FWER 처럼 전체를 대상으로 검정하는 것이 아니라 유의하다고 판정된 유전자들 중에서 검정에 오류가 있는 유전자를 필터링하는 방법이다.


출처 : '마이크로어레이 자료의 통계적 분석', 2006, 서울대학교 통계학과 생물정보통계연구실, 자유아카데미

Suggested Pages #

0.0.1_20140628_0