Odds ratio
#
Find similar titles
- (rev. 32)
- green
Structured data
- Category
- Statistics
Odds란? #
Odds 는 Probability의 또 다른 표현법이라고 볼수 있다. 어떠한 사건이 일어날 확률을 \(p\)라고 한다면 그 사건에 대한 odds는 \(\frac{p}{(1-p)}\)로 구할 수 있다.
Odds는 도박 배팅이나 혹은 질병의 발병 확률을 표현할때 많이 사용된다. 예를 들어 경마에서 특정 말이 이길 확률이 75%라고 한다면 Odds로는 0.75 / 0.25가 되며 보다 통상적인 표현으로는 소수 자리 표현보다는 정수표현을 사용하여 3:1 이라고 표현된다. 4게임 중에 3게임은 이기고 1게임은 진다고 볼 수 있다.
또한 Odds의 비(ratio), 즉 Odds ratio(승산비, 오즈비)을 이용하면 두 개의 property에 대한 연관성을 확인할 수 있다. 예를 들어 특정 유전자(A)를 갖은 사람의 특정 질병(B)의 Odds ratio를 구하면 특정 유전자(A)와 특정 질병(B)의 연관성을 평가할 수 있다.
예제 #
특정 유전자를 갖는 사람(A)의 특정 질병(B)에 대한 Odds를 구하면
$$ Odds(A) = p(B|A) / P(B'|A) $$
특정 유전자를 갖지 않는 사람(A')의 특정 질병(B)에 대한 Odds를 구하면
$$ Odds(A') = p(B|A') / p(B'|A') $$ $$ Odds ratio(OR) = Odds(A) / Odds(a') $$
OR > 1이면 A라는 유전자는 질병 B와 연관이 있다고 판단할 수 있다.
위의 예처럼 유전자 타입이 2가지인 경우 이외에도 Odds ratio를 사용할 수 있다.
아래 예가 한 locus에 3가지 genotype 이 있을 경우 Odds ratio를 이용한 예이다.
Genotype이 3종류 임을 가정한다. (G1,G2,G3, 여기서 특정 trait D에 가장 좋은 genotype을 G1 이라고 가정한다.) D 는 disease 혹은 관심 있는 trait의 발변형이라고 하겠다.
먼저 Odds 를 보자면
$$ Odds(x) = Pr(x) / 1 - Pr(x) 이므로 $$ $$ Odds(D|G2) = Pr(D|G2) / 1 - Pr(D|G2)이다. $$
여기서 분모를 보면 $$ 1 - Pr(D|G2) = (Pr(G2) - Pr(D,G2)) / Pr(G2) = Pr(D',G2) / Pr(G2) = Pr(D'|G2) $$ 가 된다 (D' 는 disease 가 아닌 표현형). $$ 곧 Odds(D|G2) = Pr(D|G2) / 1 - Pr(D|G2) = Pr(D|G2) / Pr(D'|G2)가 된다. $$ 이 Odds 수식을 말로 설명하자면 특정인의 genotype이 G2 일때 질병 D 에 걸릴 확률이 안 걸릴 확률에 비해 odds(D|G2) 값 만큼 높다는 것이다. 좀 더 구체적으로 수치로 예를 들자면 제가 genome 상의 특정 위치에서 genotype이 C가 나왔는데 이로 인한 disease D의 Odds가 3이 나왔다면 저는 그 병인 D에 걸릴 활률이 안 걸릴 확률보다 3배가 높은 것이다.
Odds ratio를 보자면 $$ Odds ratio = Odds(D|G2) / Odds(D|G1)$$ 이다(Odds ratio의 분모의 genotype은 항상 가장 Odds가 낮은 genotype인 G1이 되겠다.).
마찬가지로 구체적인 수치로 예를 들자면 odds(D|G1)의 값이 0.5라면 저의 genotype에 의한 Odds ratio는 3/0.5로 6이 되는 것이다. 이는 가장 좋은 genotype을 갖은 사람에 비해서는 제가 disease D에 걸릴 위험도가 6배가 높다는 것이다.
Odds ratio(OR), Relative risk(RR). #
어떤 연구는 Odds ratio를 쓰고 어떤 연구는 Relative risk를 쓰고.
대략적으로 구글링을 해보면 cohort 연구와 같은 Prospective study (특정 결과에 영향이 있는 원인을 기준으로 샘플을 분류하고 시간이 흐름에 따라 결과가 어떻게 나오는지 연구하는 것) 에서는 RR을 쓰는 것이 맞고 case-control 과 같은 retrospective study 에서는 RR 대신에 OR을 쓴다 정도로 설명이 나온다.
이 설명이 별로 와 닿지가 않는데... 그냥 수치를 넣고 테이블 값을 변형해서 OR과 RR 값을 구해보면 왜 RR이 아닌 OR을 사용하는지 이해될 수 있다.
흡연과 폐암의 예를 들어보자.
실제적 전체인구가 20000 명인데 흡연과 폐암간의 관계가 아래 표와 같다고 하자 (RR이 2, OR 이 2.11 이다).
| - |cancer| non-cancer | - |
| smoker | 1000 | 9000 | 10000 |
| non-smoker| 500 | 9500 | 10000 |
| - |1500 | 18500 | - |
Prospective study는 smoker와 non-smoker를 나누고 시간이 흐른 뒤에 각각의 group에서 cancer, non-cancer 의 비율을 본다. 전체 인구에서 smoker 100 명을 sampling하고 non-smoker 100명을 샘플링 해서 오랜시간 동안 cancer의 발생 환자 수를 확인 해보면 ideal한 경우에 아래 표와 같은 결과가 나타날 것이다.
| - |cancer| non-cancer | - |
| smoker | 10 | 90 | 100 |
| non-smoker| 5 | 95 | 100 |
| - | 15 | 185 | - |
여기서는 smoker 그룹을 먼저 샘플링 했기때문에, 곧 smoker 100명의 집단을 정해놓고 그 안에서 cancer 가 발생한 사람수를 확인 한 것이기때문에 smoker일 경우 cancer가 걸릴 확률 (10/100)을 구해도 괜찮다. 곧 RR을 구해도 된다. RR을 구하면 2가 나오고 OR 을 구하면 2.11이 나온다.
그런데 case-control study처럼 cancer 환자군을 모집하고 그 안에서 smoker와 non-smoker를 나누고 마찬가지로 non-cancer 집단을 모집해서 그안에서 smoker와 non-smoker를 구해서 prospective study와 같은 확률 구하면 어떻게 될까? (cancer 환자 100명을 모집하면 모집단의 표에서 smoker와 non-smoker의 비율이 2:1이기에 대략적으로 67:33 명의 smoker 와 non-smoker가 뽑힐 것이다.)
| - |cancer| non-cancer | - |
| smoker | 67 | 49 | 116 |
| non-smoker| 33 | 51 | 84 |
| - |100 | 100 | - |
위의 표 수치를 가지고 smoker 긴데 cancer가 걸릴 확률을 구하면 67/116 으로 말도 안되는 값이 나온다. 당연히 smoker 그룹을 정해놓고 그안에서 cancer의 발병 확률을 계산한게 아니라 cancer 환자수 non-cancer 정상인 따로따로 사람을 모집하고 smoker를 기준으로 위와 같은 계산을 하니 엉뚱한 값이 나온다. RR은 1.47이 나온다. OR은 2.11 이 나온다(cancer 내의 smoker, non-smoker 수를 반올림 하였기 때문에 ideal 값과는 약간의 차이가 난다).
예에서 볼수 있듯이 OR이 RR에 비해 robust한 것을 알 수 있다. 물론 RR이 확률값의 비율을 나타낸 것이기에 직관적이고 정확하나 case-control study와 같은 경우에는 RR 을 구하면 엉뚱한 값을 구하게 된다.