Skip to content

Multiple alignment #
Find similar titles

Multiple Alignment #

Multiple Sequence Alignment(MSA) #

Multiple Alignment(MSA)란 3개 이상의 DNA, RNA, Protein과 같은 서열들을 sequence alignment를 진행하는 것을 말합니다.

Image

Figure 1. CLC Main Workbench를 통한 여러 단백질들의 Multiple Alignment 수행

Multiple Alignment는 단백질 서열간의 유사성을 통하여 단백질의 기능을 이해하며, 구조를 예측하고, 진화 관계를 규명하는 데 유용합니다. 따라서 차후 미래 생물산업의 발전과 더불어 생물정보학 분야의 응용과 확대되는 데 필요할 것으로 생각됩니다.
즉, 정렬을 하면 서열의 열의 위치별로 유지가 잘 되고 있는 것들(conserved residues)과 유지가 되지 않고 있는 것들(variable residues)을 비교해 볼수 있습니다. 그 결과 유지가 잘 되는 부분은 진화적으로 서열의 기능에 매우 중요한 부분으로 유추 할 수 있습니다.
최근 적절하게 유지되고 있는 열들의 상호관계를 분석하여 서로 연관되어 진화되는 부분이 구조 및 기능에 중요하다는 SCA(Statistical Coupling Analysis) 연구가 많이 이루어 지고 있습니다.
대표적인 다중서열정렬 알고리즘으로는 CLUSTALW가 있으며, MSA(Multiple Sequence Alignment)는 크게 Progressive MSA와 Iterative MSA로 나눌 수 있습니다.

Progressive Multiple Sequence Alignment #

Progressive MSA(Multiple Sequence Alignment)는 한 서열을 점차적으로 다른 서열들과 정렬하는 것을 말합니다. 6가지 스텝을 살펴보면

1. 가장 비슷한 두 서열에서 정렬을 시작합니다.
2. 정렬된 각 서열 pair마다 distance matrix/function를 만듭니다.
3. sequence의 마지막 노드에서의 matrice에서 Phylogenetic guide tree를 만듭니다.
4. 정렬된 서열에 다음 새로운 서열을 정렬할 때 guide tree를 사용하여 정렬합니다.
5. 다시 스텝 1로 돌아가면서 순서대로 MSA에 서열을 계속 추가함으로써 완전한 MSA를 완성합니다.

** Guide tree는 neigbor-joining나 UPGMA와 같은 효율적인 clustering method로 만듭니다. 
또한 dynamic programming alignment 보다는 distance를 바탕으로 alignment를 진행합니다.

Image

이러한 Progressive MSA는 가장 빠른 접근법이며, 다중 서열의 Pair-wise alignment보다도 빠릅니다. 그러나 첫 두 서열에 의해서 서열 정렬의 정확성이 정해지고, 에러가 나머지 부분에 영향을 미치기 때문에 이를 보완하기 위한 방법이 Iterative MSA방법입니다.

Iterative Multiple Sequence Alignment #

Iterative MSA(Multiple Sequence Alignment)는 말 그대로 MSA 과정을 여러번 반복하는 동안 순서를 계속해서 재정렬하는 과정이며 이를 통해 최적화 할수 있는 Alignment방법입니다.
MSA는 서브그룹내의 서열 pair-wise 재정렬을 시작으로 다시 subgroup을 재정렬 합니다.
subgroup의 선택은 guide tree의 sequence 관계와 random selection, 등에 의하여 정해집니다. 핵심은, iterative MSA는 유전자 알고리즘과 숨겨진 마르코프 모델을 사용한 최적화 방법입니다. 하지만 단점은 프로세스가 로컬 최소값에 갇혀서 훨씬 느려질 수 있습니다.

Software #

* CLUSTAL-W - 가장 유명한 다중 서열 알고리즘
* CLUSTAL-X - CLUSTAL-W의 윈도우 기반의 사용자 인터페이스를 제공
* MUSCLE - T-coffee보다 정확하고 CLUSTAL-W보다 빠름 (추천)
* Chimera - 분자 그래픽 패키지와 함께 다양한 지원 가능
* DCSE - 다중 정렬 편집기
* Friend - 생물정보학에 대한 통합 프론트엔드 응용 프로그램
* Jalview - 자바 다중 정렬 편집기
* Mauve - 염기 치환 및 삽입과 삭제에 더하여 대규모 재배치를 고려한 다중 게놈 정렬 시각화 패키지
* Modview - 여러 생체 분자 구조 및 서열 정렬을 분석하고 시각화 하는 프로그램
* Musca - 검색 패턴을 사용한 다중 서열(아미노산 or 핵산) 정렬

* SeaView - 다중 서열 정렬 그래픽 편집기
* ShadyBox - 주요 유닉스 플랫폼에 대한 최초의 GUI기반의 WYSIWYG 다중 서열 정렬 프로그램
* UGENE - 통합된 MUSCLE 정렬 알고리즘을 포함하는 다중 서열 정렬 편집기
* BSEdit - 윈도우 XP / Vista / Windows 7을 위한 DNA / RNA / 단백질 편집기

Suggested Pages #

0.0.1_20140628_0