Skip to content

Substitution model #

Find similar titles

8회 업데이트 됨.

Edit
  • 최초 작성자
  • 최근 업데이트
    Youngchul Jeon

Structured data

Category
Statistics

DNA Substitution Models #

종간에 DNA substitution modeling에 대해 소개하고 Species divergence에 대해 추정하고 sequence data로 부터 Phylogenetic tree를 추측해본다.

1. Alignment of homologous sequences #

Phylogenetic analysis의 기본 전제는 sequence가 공통 조상으로 부터 유래하였다는 것이다. sequence alignment의 목표는 공통의 조상으로 부터 유래한 두개 혹은 그 이상은 sequence들의 유사부위를 정렬하는 것이다. Alignment가 되어 있다는 가정하에 Phylogeny를 추정하는 것에 초점을 맞춘다 * alignment는 Biological Sequence Analysis 라는 책을 참조한다

2. Pairwise percentage of substitutions #

두 종의 molecular divergence 의 단순한 지표가 될수 있는 것은 두 sequence를 alingment한 뒤의

$$ d = \frac{x}{n} $$

\(x\)는 두 sequence에서 차이가 나는 nucleotide의 갯수
\(n\)은 전체 비교 site

두 종간의 sequence 의 fixed difference를 DNA substitution 이라고 한다. 이 DNA substitution이 일어나는 이유는 한 종에서 mutation이 일어나고 이 mutation이 genetic drift 혹은 natural selection 에 의해 그 종에 fixed 되었기 때문이다.

mutation의 fixation에 영향을 미치는 것이 genetic drift 만 있을 경우(곧 neutral selection) Motoo Kimura 는 rate of substitution이 site-specific mutation rate와 동일함을 보였다. 이에 대한 증명은 아래와 같다.

diploid 인 chromosome을 갖는 개체의 특정 위치에서의 mutation rate 를 \(\mu\) 라 하면 size가 N (즉 개체수가 N) 인 집단에서의 예상되는 mutation의 수는 \(2N\mu\) 이다. 그리고 Sewall Wright에 의해 \(i\)개의 copy를 갖는 allele이 N개체 수의 집단에서 fixation 될 확률은 \(i/2N\) 임이 보여졌다. rate of substitution, 곧 mutation 이 일어나고 fixation이 되는 rate는 (예상되는 mutation 갯수) x (fixation될 확률) 이라고 할수 있다 (mutation 이 fixation될 확률은 mutation은 하나의 새로운 allele이 나타나는 것이므로 \(1/2N\)이 된다).

$$ v = 2N\mu \times \frac{1}{2N} = \mu\ $$

많은 genomic 영역에서의 mutation은 neutral하지 않은 경우가 많다. 이 경우 substution rate는 mutation이 neutral effect일 경우 보다 높거나 (positive selection) 낮게 된다(negative selection). 예를 들면 third codon position의 경우 이 위치에서의 nucleotide의 변화가 Amino Acid의 선택에 영향을 주지 않기때문에 이 위치에서의 substitution rate가 다른 위치의 substitution rate보다 높다. 이는 곧 Amino Acid의 변화가 negative selection임을 알 수 있다.

3. Modeling DNA substitutions #

한 곳에서 substitution이 일어나고 같은 곳에서 또 substitution 이 일어날 경우 원래의 nucleotide로 돌아갈수 있기 때문에 단순히 substitution의 percentage 는 실제 일어난 substitution을 저평가 하게 된다. 이와 같은 문제를 처리 하기 위한 model 중 가장 초창기 모델이 Jukes and Cantor (1969), JC69 이다. JC69 model은 mutation 의 발생이 poisson distribution임을 가정한다.

$$ Pr(M) = \frac{e^{-vt}(vt)^{M}}{M!} $$

\(M\) = substitution 갯수
\(t\) = time
\(v\) = the rate of substitution per unit of time
* Poisson distribution :: \(f(k;\lambda)=Pr(X=k)= \frac{\lambda^ke^{(-\lambda)}}{k!} \)

위 식을 이용해서 substitution 이 한번도 안 일어날 확률은 $$ Pr(M=0) = e^{-vt} $$ 이고 한번 이상 substitution이 일어날 확률은 $$ Pr(M \geq1)= 1-Pr(M=0)=1-e^{-vt} $$ 또한 JC69 model은 4종류의 nucleotide로의 변화할 확률이 동일하다고 가정한다. 곧 특정 위치에서 substitution이 한번 이상일어나서 원래 T였던 allele이 A로 변화할 확률은 $$ p_{TA}(t)=(1-e^{-vt})\frac{1}{4} $$ 이다. 위 식의 앞부분은 한번 이상의 substitution이 일어날 확률이고 뒤의 \(\frac{1}{4}\)은 T allele이 A allele로 바뀔 확률이다. 반면바뀌거나 혹은 유지가 되서 T allele이 T allele로 될 확률은 아래와 같다. $$ p_{TT}(t)=e^{-vt} + (1-e^{-vt})\frac{1}{4}=\frac{1}{4} + \frac{3}{4}e^{vt} $$

4. Substitution proportions under JC69 model #

특정 위치에서 한번 이상의 substitution이 일어나서 최종적으로 원래의 allele과 다른 allele될 확률은

$$ p_{i\not=j}(t) = (1-e^{-vt})\frac{3}{4} $$

이는 sequence의 모든 위치가 독립적이다라고 가정할 때 sequence에서 substitution이 일어나는 위치의 비율이라고 할 수 있다. 마찬가지로 sequence의 변화가 없는 비율은

$$ p_{i=j}(t) = e^{-vt} + (1-e^{-vt})\frac{1}{4} = \frac{1}{4}+\frac{3}{4}e^{-vt} $$

가 된다.

위의 식들은 원래의 allele이 같은 allele로 변화 하는 것도 subtitution이라고 여겼다. 그러나 nucleotide가 변화가 없는 것은 substitution 이라 하지 않는다. 그렇기 때문에 원래의 substitution rate \(v\) 대신 그 값의 \(3/4\) 를 substitution rate라고 해야 JC69 model의 standard formulas가 된다. $$ \upsilon= \frac{3}{4}v $$ 이므로 $$ v = \frac{4}{3}\upsilon $$ 를 위 식에 대체 해야 한다.

5. JC69 distance and divergence model #

nucleotide substitution의 비율 식을 변환하면 \(t\), 곧 시간에 관한 식이 되고 이는 두 sequence를 분리시킨 총 시간이 되고 두 sequence의 substitution rate 가 같다는 가정(molecular clock hypothesis)하에 이 total 시간은 divergence time의 2배가 된다는 사실로 divergence time을 추정할 수 있다. 위 nucleotide substitution proportion 식에서 \(v\) 대신 \(\frac{4}{3}\upsilon\)으로 대체한 뒤 \(t\)로 방정식을 풀게 되면 추정되는 total 시간은 아래와 같다.

$$ \hat{t}=-\frac{1}{\upsilon}(\frac{3}{4})log(1-4/3\hat{p}) $$ \(\hat{p}\) = the observed proportion of substitutions between sequences

substitution rate\(\upsilon\)을 안다면 \(t\)를 구할수 있고 divergence time 은 \(t/2\)가 된다.

예를 들어 사람과 침팬치의 non-coding nuclear DNA sequence의 substitution 비율이 대략 0.01~0.015가 되고 mammalian nuclear gene의 mutation rate \(\upsilon = 10^{-9}\) per year 정도로 알려져 있다. mutation이 neutral하다고 가정한다면 mutation rate가 곧 substitution rate가 되기 때문에 사람과 침팬치의 divergence time은 아래와 같이 계산 가능하다(\(\hat{p}=0.01 로 여김\)).

$$ \frac{1}{2}\hat{t}=-\frac{1}{2} \times \frac{1}{10^{-9}}(\frac{3}{4})log(1-4/3\times 0.01) = 5033633= 5 \mbox{MYA} $$

6. Kimura 2 parameter model #

JC69 model은 transition(A<->G, T<->C)과 transversion 이 일어날 확률을 동일하게 보기 때문에 현실적이지 않다. 여러 종의 sequence를 비교한 결과 transtion이 transversion 보다 훨씬 자주 일어난다. Kimura (1980)는 이에 대해 transition과 transversion의 rate를 다르게 하는 좀 더 현실적인 model을 제안했는데 이를 Kimura 2 parameter model (K80) 이라 한다. 첫번째 parameter가 relative rate of transitions versus transversions 인 $$ \kappa = \frac{\alpha}{\beta} $$ \(\alpha = \) rate of transitions
\(\beta = \) rate of transversions

두번째 parameter인 ovarall substitution rate 는 아래와 같다. $$ \upsilon = \alpha + 2\beta $$ *transversion이 transition에 비해 2배의 가지수가 더 많기 때문에 x2를 한것으로 보임

위 두 parameter 하에 probability of transition 는

$$ p_1(t) = \frac{1}{4} +\frac{1}{4}e^{-4\upsilon\kappa / (\kappa+2)} - \frac{1}{2}e^{-2\upsilon t(\kappa+1)(\kappa+2)} $$

이고 probability of transversion은 $$ p_2(t) = \frac{1}{4} - \frac{1}{4}e^{-4\upsilon\kappa / (\kappa+2)} $$ 이다.

transition과 transversion의 expected proportion \(S,V\)가 \(S=p_1(t), V=2p_2(t)\) 이고 위 \(p_1(t), p_2(t)\)식을 \(S, V\) 치환한다음에 연립방정식을 풀게 되면 $$ \hat{t}= -\frac{1}{\upsilon}(\frac{1}{2}log(1-2S-V) - \frac{1}{4}log(1-2V)) $$ $$ \hat{\kappa} = \frac{2llog(1-2S-V)}{log(1-2V)} -1 $$ 를 얻게 된다.

Suggested Pages #

0.0.1_20230725_7_v68