Skip to content

Bonferroni correction #
Find similar titles

Structured data

Category
Statistics

Bonferroni correction은 다수를 비교할때 발생되는 오류를 보정하는 통계추론 방법 중 하나이다. 이 방법의 통계적인 의미는 위키피디아에 잘 정리되어져 있다.(http://ko.wikipedia.org/wiki/%EB%B3%B8%ED%8E%98%EB%A1%9C%EB%8B%88_%EA%B5%90%EC%A0%95). 이러한 방법은 생명공학분야에서 질병과 유전자의 연과성을 연구(GWAS)하는데도 많이 활용되고 있다.

bonferroni 와 사후 검정 (통계학 분산분석의 관점에서) #

bonferroni를 언급하기 위해선 사후 검정(post hoc analysis) 이라는 통계학 용어를 알아야 한다. 이 사후 검정은 다중 비교의 다중 검정으로도 불린다. 통계학 용어이며 일반 통계학에서 분산분석에서 처음 접하게 된다.

분산분석의 목표는 그룹이 3개 이상일 때 평균의 차이가 나는지 아닌지를 검정하게 되는데, 이때 유의 수준을 보통 5%(0.05)로 잡고 검정을 하게 된다. 결과를 해석할 때 유의 수준과 유의확률(p-value)을 비교하여 그룹 간 평균차이가 있는지 없는지를 표현하게 되는데 문제는 유의 수준보다 유의 확률이 낮을 때 나타난다. 만약 평균차이가 있다고 한다면 A, B, C 세 그룹 중 어느 그룹끼리 평균차이가 있는 것인지는 얘기할 수 없기 때문이다. 이 때문에 전체 분산분석이 끝나면 당연히 두 그룹씩 짝을 지어서 그룹 간의 검정을 재수행하여야 한다. 이때 쓰이는 검정이 사후 검정인데 사후 검정에 쓰이는 방법들이 Bonferroni, Tukey, Scheffe 등이 있다.

사후 검정 방법이 필요한 이유 #

검정법의 종류가 여러 개가 있음을 확인하였는데 저렇게 사후 검정 방법이 따로 존재하게 되는 이유는 뭘까? 원인은 아주 간단하게 이해할 수 있다. 만약 분석자가 한국, 중국, 미국의 20대 여자의 평균 키가 차이 나는지를 확인한다고 했을 때 분산분석 이후에 세 나라의 20대 여자 평균 키가 그룹 간 차이가 남을 확인했다고 가정하자. 그럼 2그룹씩 나눠 총 3번의 검정을 해야 할 것이다. 이때 분석자는 큰 이유가 없다면 유의 수준을 5%로 놓고 진행할 것이며 분석자는 5% 정도의 오류(제 1종 오류)의 가능성만을 생각하고 싶다는 얘기다. 그러나 사실 각각의 사후 검정의 유의 확률을 단순히 5%로 놓게 되면 3번의 검정을 통해 만들어지는 오류는 간단히만 가산(3번의 검정이 독립이라면)하더라도 15%가 될 것이다.(사실 정확한 실제 유의 수준(1종 오류) 계산은 1-(1-설정한 유의수준)^(검정횟수)와 같아진다. 3 출처) 결국 전체 분석의 5% 오류를 생각한다면 새로운 검정방법으로 사후 검정을 진행해야 분석의 결과를 신뢰할 수 있다는 결론이다. 깊은 내용을 다루진 않고 이해하기 쉽도록만 설명하였으니 자세한 건 본 포스팅 아래의 링크와 기타 검색을 하길 추천한다.

GWAS분석에서의 Bonferroni correction #

GWAS분석에서 과거에는 한 두개의 유전자 또는 유전변이형 마커에 대한 연관성 분석을 수행하였기때문에 다중비교(Multiple comparison)에 의한 오류는 큰 문제가 되지 않았다. 그러나 최근에는 엄청난 수의 유전변이형 마커가 질병 연관성 연구에 활용되면서 다중검정의 문제가 제기되었다. 이러한 문제를 해결할 수 있는 방법으로는 가장 간단한 bonferroni correction방법을 많이 활용한다. 이 방법은 유의수준 α(= p-value)를 총 검사한 개수(N)로 나누어 주는 것이다. 예를 들어, 단일검사의 유의수준(False positive율)을 5%로 설정하면 Bonferroni correction에 의한 새로운 유의수준 α(=p-value)= 0.05/N으로 표시된다.

단일검사의 false positive = α = 5%    : family-wise type 1 error(FWE)
P-value = α = 0.05/N, where N = No. of tests : test-wise error rate(TWE)
No. of tests: 1test 10test 100tests
p-values:     0.05  0.005  0.0005

위의 보기에서와 같이 조사하는 개수가 증가함에 따라 유의수준이 급격히 감소함을 알 수 있다. 따라서 본 보정 방법은 수행하는 검사의 수가 많은 경우에는 너무 엄격하게 유의수준이 크게 감소한다는 단점을 가지고 있다.

Reference #

  1. Dunnett, C. W. (1955). A multiple comparisons procedure for comparing several treatments with a control. Journal of the American Statistical Association, 50, 1096-1121.
  2. 이종극(2006). 질병 유전체 분석법
  3. https://mansoostat.tistory.com/48
  4. https://www.ibric.org/myboard/read.php?Board=isori&id=1920

Incoming Links #

Related Bioinformaticses #

Suggested Pages #

0.0.1_20140628_0