BWA
#
Find similar titles
- (rev. 6)
- SeokmoonChoi
Structured data
- Category
- Software
Table of Contents
BWA(Burrows-Wheeler Aligner) #
Introduction #
BWA는 적은 갯수의 레퍼런스 서열(low-divergent sequences)에 시퀀스 리드 맵핑을 위한 툴이다. 이름에서 알 수 있듯이 Burrows와 Wheeler가 개발한 Burrows-Wheeler Transform (BWT)를 기반으로 Heng Li 께서 개발했다.
BWA의 3가지 알고리즘 #
BWA는 3가지 알고리즘을 갖고 있는데 각각 BWA-backtrack, BWA-SW and BWA-MEM 이다. BWA-backtrack 은 100bp 정도의 길이를 갖는 Illumina short reads를 위한 알고리즘이고, 나머지 두개의 툴은 long reads (70bp~1Mbp) 를 위한 알고리즘이다. SW와 MEM은 같은 특징을 갖지만, MEM은 가장 최신(2012~2013)에 개발되었다. 최근에 개발된 만큼 좀 더 빠르고 좀 더 정확하다. 뿐만이 아니라 70-100bp Illumina reads 에 대해서도 BWA-backtrack 보다 좋은 퍼포먼스를 보인다.
알고리즘의 특징 #
위에서 언급한데로, BWA-MEM은 BWA-backtrack과 BWA-SW를 아우를 수 있는 aligner 이다. 하지만, 각각의 aligner에는 장단점을 갖고 있다. 물론, 70bp 나 longer Illumina, , Ion Torrent and Sanger reads, assembly contigs 그리고 BAC sequences 모두 BWA-MEM에서 잘 작동한다. 하지만 short sequences 에 대해서는 BWA-backtrack 이 좀 더 좋은 결과(위에서 언급한 것은 퍼포먼스이다.)를 보이고, BWA-SW 는 gap이 빈번하게 발생하는 경우의 alignment 에서 좀 더 섬세한 alignment를 수행한다.
multi-hits reads 의 처리 #
Multi-part alignments는 genefusion 이나 reference misassembly 에 의해서 발생될 수 있다. 이러한 multi-hits reads는 SAM 에서 표현이 되지 않는다. 이러한 문제를 해결하기 위해 BWA-MEM의 옵션에서 '-M' 을 함께 사용하면 BWA-MEM은 picard를 공용해 shorter split hits 를 마킹한다.
chimeric reads 찾기 #
aligner를 사용하려는 유저들에게 가장 많은 고민은 chimeric reads를 찾는 것 관한 문제이다. 이는 SEQanswers, BioStar 에서 빈번히 보인다. 이러한 문제는 BWA-SW 와 BWA-MEM 에서 2개 이상의 read/contig alignment report 를 찾을 수 있다면 해결 할 수 있다.
진화한 BWA #
2013년에 개발이 완료된 bwa-mem 은 기존의 한계였던 total genome length 가 4GB 보다 큰 경우에 작동하지 않았던 문제를 완벽히 해결했고, 하나의 chromosome length가 2GB를 넘지 말아야 했던 문제점도 해결했다. version으로 보면 0.6.x 부터 이 문제를 해결했다. 이 버전 이후 부터는 2008년~2009년에 개발된 bwa-backtrack, bwa-sw에서도 해결되었다.
Reference #
Incoming Links #
Related People (Person 0) #
Related Bioinformaticses (Bioinformatics 1) #
Suggested Pages #
- 0.140 PICARD
- 0.138 계통수
- 0.133 PDB
- 0.074 STAR/Outputs
- 0.074 GBS read mapping/BWA
- 0.055 파이썬/라이브러리/pySam
- 0.041 MappingQuality
- 0.037 CSA
- 0.037 UniProt 데이터베이스의 구성
- 0.033 PICARD/MarkDuplicates
- More suggestions...