Alignment
#
Find similar titles
- 최초 작성자
- 최근 업데이트
Structured data
- Category
- Analysis
Table of Contents
Sequence alignment #
Sequence alignment는 단순히 서열을 정렬하는 방법이라고 생각하면 이해가 쉽다. DNA, RNA, Protein 서열의 유사도를 알아보고, 더 나아가 계통 (유연관계) 분석을 위해 alignment를 진행한다. Alignment의 알고리즘은 크게 Local alignment와 Global alignment 방법이 있다.
Local alignment #
Local alignment는 전체 서열에서 유사성이 높은 부분보다는 짧지만 더 정확한 단편들을 찾아 정렬한다. (Smith-Waterman 알고리즘)
Global alignment #
Global alignment는 전체 서열에서 가장 최적화된 부분을 정렬한다. 비교하고자 하는 서열의 길이가 비슷하고 유사성이 높은 경우에 Global alignment를 사용한다. (Needleman-Wunsch 알고리즘)
Alignment 방식 #
- Multiple alignment : 하나의 read를 여러 군데 맵핑, 몇번 붙으면 무시하는 방법이다.
- Random alignment: 말그대로 랜덤하게 붙이는 것을 의미한다.
- Unique alignment: 한 군데만 붙는서열을 찾습니다. 예)17mer이상 ATGC를 말하지만, 실제 repeat영역이 많기 때문에 실제로는 어려움이 있다.
Aligner 특징 #
- Illumina : 에러들이 암호 끝에 모이는 경향을 이용한다.
- Helicos : 단일분자일 때 사용가능하고 형광소가 빛을 내지 않고 발견되지 않으면 찾아내지 못한다.
- 454 : 코드 A가 연속적으로 붙어있으면 몇 개가 붙어있고 어디가 에러인지 찾기가 힘들다.
Alignment Quality는 BQ와 비슷하게 Alignment가 잘못 배열될 가능성을 판단할 수 있다.
잘 배열된 alignment가 하나 이상 있으면 AQ=0이다.
알고리즘 종류 Hashing : 조금씩 잘라내서 분석.
Suffix Array/BWT : 끝에 위치한 코드를 분석한다.
결과형태 SAM : TEXT 형태고 비효율적이여서 큰 프로젝트에서는 쓰이지 않는다. Read name, Flag, Reference Position, AQ, CIGAR = Mate Position, LEN 순서로 글자를 배열한다.
Alignment 이후 과정 #
- Duplicate 다루기 : duplicate를 제거.
- INDEL Cleaning : duplicate가 전체적으로 분포되어 있을 때 제거에 용이하다.
좋은 Aligner의 조건 #
- Speed : BWA < SOAPdenovo < Bowtie
- Mismatch 율 : SOAPdenovo < Bowtie < BWA Aligner가 얼마나 좋은 지를 따지는 것보다 그 Aligner가 실험 결과에 얼마나 영향을 주었는가에 집중.
- Trio conflict rate : Bowtie는 별로 좋지 않다.
- Variant calling result : Bowtie < SOAPdenovo < BWA
결론 #
- Alignment는 Sequencer의 기술에 의존한다.
- Alignment 이후의 과정들은 필수적이다.
- 표준 파일 형태는 BAM이다.
Incoming Links #
Related Articles (Article 0) #
Related Bioinformaticses (Bioinformatics 1) #
- Assembly
- BioJava/MSA
- Biopython/GeneWise
- MappingQuality
- PDB
- Pairwise Alignments
- R (프로그래밍 언어)/Bioconductor/ShortRead
- Reference-guided Alignment
- STAR/Outputs
- 계통수
Suggested Pages #
- 0.311 자가불화합성
- 0.173 CSA
- 0.070 UniProt 데이터베이스의 구성
- 0.064 면역/Epitope prediction
- 0.053 Swiss-prot
- 0.052 PDBTM
- 0.035 WWPDB
- 0.024 NemATOL
- 0.021 시토신
- 0.021 핵산
- More suggestions...