Skip to content

Alignment #
Find similar titles

Structured data

Category
Analysis

Sequence alignment #

Sequence alignment는 단순히 서열을 정렬하는 방법이라고 생각하면 이해가 쉽다. DNA, RNA, Protein 서열의 유사도를 알아보고, 더 나아가 계통 (유연관계) 분석을 위해 alignment를 진행한다. Alignment의 알고리즘은 크게 Local alignment와 Global alignment 방법이 있다.

Local alignment #

Local alignment는 전체 서열에서 유사성이 높은 부분보다는 짧지만 더 정확한 단편들을 찾아 정렬한다. (Smith-Waterman 알고리즘)


Global alignment #

Global alignment는 전체 서열에서 가장 최적화된 부분을 정렬한다. 비교하고자 하는 서열의 길이가 비슷하고 유사성이 높은 경우에 Global alignment를 사용한다. (Needleman-Wunsch 알고리즘)

Alignment 방식 #

  • Multiple alignment : 하나의 read를 여러 군데 맵핑, 몇번 붙으면 무시하는 방법이다.
  • Random alignment: 말그대로 랜덤하게 붙이는 것을 의미한다.
  • Unique alignment: 한 군데만 붙는서열을 찾습니다. 예)17mer이상 ATGC를 말하지만, 실제 repeat영역이 많기 때문에 실제로는 어려움이 있다.

Aligner 특징 #

  • Illumina : 에러들이 암호 끝에 모이는 경향을 이용한다.
  • Helicos : 단일분자일 때 사용가능하고 형광소가 빛을 내지 않고 발견되지 않으면 찾아내지 못한다.
  • 454 : 코드 A가 연속적으로 붙어있으면 몇 개가 붙어있고 어디가 에러인지 찾기가 힘들다. Alignment Quality는 BQ와 비슷하게 Alignment가 잘못 배열될 가능성을 판단할 수 있다. 잘 배열된 alignment가 하나 이상 있으면 AQ=0이다.

알고리즘 종류 Hashing : 조금씩 잘라내서 분석.
Suffix Array/BWT : 끝에 위치한 코드를 분석한다.
결과형태 SAM : TEXT 형태고 비효율적이여서 큰 프로젝트에서는 쓰이지 않는다. Read name, Flag, Reference Position, AQ, CIGAR = Mate Position, LEN 순서로 글자를 배열한다.

Alignment 이후 과정 #

  • Duplicate 다루기 : duplicate를 제거.
  • INDEL Cleaning : duplicate가 전체적으로 분포되어 있을 때 제거에 용이하다.

좋은 Aligner의 조건 #

결론 #

  • Alignment는 Sequencer의 기술에 의존한다.
  • Alignment 이후의 과정들은 필수적이다.
  • 표준 파일 형태는 BAM이다.

Incoming Links #

Related Articles #

Related Bioinformaticses #

Suggested Pages #

0.0.1_20140628_0