Skip to content

Pairwise Alignments #
Find similar titles

Structured data

Category
Algorithm

Alignment #

서열정렬(alignment)이란 2개 이상의 상동서열 (homolog)-동일한 조상을 갖는 서열에 대하여 서열을 이루는 구성요소 (핵산염기, 아미노산)들이 상동서열 간의 진화적 관계를 반영할 수 있도록 쌍을 지어 대응시키는 방법을 말한다. 이러한 서열정렬을 이용하여 유전자의 기능과 유전자에 포함된 정보를 이해하거나, 서열 데이터베이스(database)로부터 유사한 서열들을 찾음으로써 생명정보학에서 사용되는 여러 기법들의 초석이라고 할 수 있다.

Simple Alignment #

모든 서열 위치에서는

(1) 다른 종류의 서열구성요소로 바뀌는 돌연변이 (mutation)
(2) 1개 또는 그 이상의 서열 위치가 추가되는 삽입 (insertion)
(3) 1개 또는 그 이상의 서열 위치가 삭제되는 결실 (deletion)

과 같은 3 가지 종류의 진화적 변화가 발생 가능하다. 만약 돌연변이가 발생했던 서열 위치에서는 종류가 다른 서열 구성들이 대응관계를 이루게 된다. 그러나 삽입이나 결실이 발생했던 서열 위치에는 대응관계를 이룰 서열 구성요소가 없으므로 이러한 정렬 서열에서는 이를 서열공백 (gap, -)으로 나타낸다.

AATTCCGGAA     AATTCCGGAA     AATTCCGGAA
AACACCT         ATAGTCC          AGTCGAA

위는 2개의 짧은 서열 사이에서 발생될 수 있는 3가지의 simple alignment를 그려보았다. 이를 계산하기 위해서는 최적정렬서열을 찾기 위한 수치화된 객관적인 값들을 사용해야 하는데, 이 때 정렬점수 (score)를 이용하게 된다. 동일한 핵산염기들이 대응된 염기쌍에 대해 부여된 가점 (credit)은 match score, 상이한 핵산염기들이 대응된 염기쌍에 대해 부여된 감점 (penalty)은 mismatch score로 불린다. 예를 들어, match score가 1점이고 mismatch score가 0점이면 각각 4, 2, 3점이 된다. 이들 중에서는 첫 번째 정렬서열이 최적정렬서열에 가장 가깝다고 할 수 있다.

Gaps #

삽입과 결실의 가능성까지 고려하면, 2개 이상의 서열들로부터 얻어질 수 있는 정렬들의 수는 급격하게 증가한다.

AATTCCGGAA     AATTCCGGAA     AATTCCGGAA
AACACC---T     -ATA--GTCC     AGT--CG-AA

이 때, match score가 1점. mismatch score가 0점. gap penalty가 -1점이라면 각각 1, 2, 3점이 된다. 이 중에서는 점수가 가장 낮은 첫 번째 정렬서열은 서열간의 진화적 관계를 반영하는 최적정렬서열이라고 보기 어렵다.

PAM vs BLOSUM #

PAM과 BLOSUM. 모두 sequence의 similarity를 보고자 하는 matrices이다.

PAM #

Point Accepted Mutation (PAM)은 단백질 서열에서 하나의 아미노산이 다른 아미노산으로 치환되는 것으로 natural selection 과정에 의해 일어난다. PAM 점수표는 유사도가 높은 단백질 서열들로 이루어진 정렬서열에서 관찰된 치환율로부터 다음과 같은 방법에 의해 계산된 점수들로 구성되어 있다. 매우 높은 (보통 >85%) 일치도 (identity)를 보이는 단백질 서열들로 정렬서열을 작성한 다음, 모든 아미노산 (j)들의 상대변이도(relative mutability, mj)를 계산한다. 지정변이도(Aij)란 아미노산 j가 아미노산 i로 치환된 경우의 수이다. 예를 들면, 지정변이도 Acm은 메티오닌(methionine)이 시스테인(cystein)과 정렬된 경우의 수를 의미한다. 마지막으로 아미노산의 지정변이도를 상대변이도로 나누고, 이 값을 아미노산의 빈도로 표준화한 후, 대수변환(log)하여 얻은 최종 결과값(Rij)이 PAM-1 점수표를 구성한다. PAM-1 점수표를 제곱하면, 다중 PAM 단위 (multiple PAM unit)들에 대한 치환률의 근사치를 얻을 수 있다. 주어진 서열의 서열정렬에 가장 적합한 PAM 점수표는 서열의 길이와 서열들 사이에서 기대되는 유사도에 따라 달라진다. 매우 유사한 서열들에 대해서는 PAM-1이 사용될 수 있고 매우 상이한 서열들에 대해서는 PAM-1000이 사용될 수도 있지만, 가장 일반적으로 사용되는 것은 이 둘을 절충한 PAM-250이다.

BLOSUM #

BLOSUM (BLOcks SUbstitution Matrix) 점수표는 유사한 단백질들에 대하여 서열공백을 허용하지 않는 서열정렬을 수행하고, 통계학에서 사용되는 군집분석법(clustering technique)을 적용한 후, 군집(cluster)간의 아미노산 치환률을 계산하여 만들어진 것이다. BLOSUM 점수표의 종류를 지정하는 숫자는 PAM 점수표의 종류를 지정하는 숫자와는 반비례 관계이다. 즉, 낮은 숫자로 지정된 PAM 점수표는 매우 유사한 서열들의 분석에 적합하고, 낮은 숫자로 지저된 BLOSUM 점수표는 유사도가 낮은 서열들의 분석에 적합하다. 예를 들어 BLOSUM-62 점수표는 서열 간 유사도가 약 62%인 경우에 적합하고, BLOSUM-80 점수표는 서열간의 유사도가 약 80%인 경우에 적합하다.

 PAM            BLOSUM         
PAM100         BLOSUM90      △   less divergent
PAM120         BLOSUM80      ㅣ
PAM160         BLOSUM60      ㅣ
PAM200         BLOSUM52      ㅣ
PAM250         BLOSUM45      ▽   more divergent

Reference #

Suggested Pages #

0.0.1_20140628_0