Skip to content

BWA #
Find similar titles

Structured data

Category
Software

BWA(Burrows-Wheeler Aligner) #

Introduction #

BWA는 적은 갯수의 레퍼런스 서열(low-divergent sequences)에 시퀀스 리드 맵핑을 위한 툴이다. 이름에서 알 수 있듯이 BurrowsWheeler가 개발한 Burrows-Wheeler Transform (BWT)를 기반으로 Heng Li 께서 개발했다.

BWA의 3가지 알고리즘 #

BWA는 3가지 알고리즘을 갖고 있는데 각각 BWA-backtrack, BWA-SW and BWA-MEM 이다. BWA-backtrack 은 100bp 정도의 길이를 갖는 Illumina short reads를 위한 알고리즘이고, 나머지 두개의 툴은 long reads (70bp~1Mbp) 를 위한 알고리즘이다. SW와 MEM은 같은 특징을 갖지만, MEM은 가장 최신(2012~2013)에 개발되었다. 최근에 개발된 만큼 좀 더 빠르고 좀 더 정확하다. 뿐만이 아니라 70-100bp Illumina reads 에 대해서도 BWA-backtrack 보다 좋은 퍼포먼스를 보인다.

알고리즘의 특징 #

위에서 언급한데로, BWA-MEMBWA-backtrackBWA-SW를 아우를 수 있는 aligner 이다. 하지만, 각각의 aligner에는 장단점을 갖고 있다. 물론, 70bp 나 longer Illumina, 454, Ion Torrent and Sanger reads, assembly contigs 그리고 BAC sequences 모두 BWA-MEM에서 잘 작동한다. 하지만 short sequences 에 대해서는 BWA-backtrack 이 좀 더 좋은 결과(위에서 언급한 것은 퍼포먼스이다.)를 보이고, BWA-SW 는 gap이 빈번하게 발생하는 경우의 alignment 에서 좀 더 섬세한 alignment를 수행한다.

multi-hits reads 의 처리 #

Multi-part alignmentsgenefusion 이나 reference misassembly 에 의해서 발생될 수 있다. 이러한 multi-hits reads는 SAM 에서 표현이 되지 않는다. 이러한 문제를 해결하기 위해 BWA-MEM의 옵션에서 '-M' 을 함께 사용하면 BWA-MEM은 picard를 공용해 shorter split hits 를 마킹한다.

chimeric reads 찾기 #

aligner를 사용하려는 유저들에게 가장 많은 고민은 chimeric reads를 찾는 것 관한 문제이다. 이는 SEQanswers, BioStar 에서 빈번히 보인다. 이러한 문제는 BWA-SW 와 BWA-MEM 에서 2개 이상의 read/contig alignment report 를 찾을 수 있다면 해결 할 수 있다.

진화한 BWA #

2013년에 개발이 완료된 bwa-mem 은 기존의 한계였던 total genome length 가 4GB 보다 큰 경우에 작동하지 않았던 문제를 완벽히 해결했고, 하나의 chromosome length가 2GB를 넘지 말아야 했던 문제점도 해결했다. version으로 보면 0.6.x 부터 이 문제를 해결했다. 이 버전 이후 부터는 2008년~2009년에 개발된 bwa-backtrack, bwa-sw에서도 해결되었다.

Reference #

homepage

manual

Incoming Links #

Related People #

Related Bioinformaticses #

Suggested Pages #

0.0.1_20140628_0