Skip to content

Bowtie2 #
Find similar titles

Structured data

Category
Software

Introduction #

bowtie2 는 기존 Bowtie 보다 빠르고 메모리 효율도 좋도록 업그레이드된 reference mapping용 소프트웨어이다. Bowtie 이전 버전과의 차이점은 앞서 언급한 것 외에도 많은 부분에서 차이가 있다. colorspace reads를 지원하지 않는다는 점, long read를 이용한 mapping에서 메모리효율과 퍼포먼스적인 측면에서 기존 버전보다 엄청난 향상을 보인다는 점등 매우많은 부분을 개선했다. 여기서 눈여겨 볼점은 local alignment를 지원한다는 점이다.

bowtie2의 local alignment란? #

기존의 Bowtie는 end-to-end방식의 aligner였다. end-to-end방식으로 인해 입력된 read의 모든 base를 통해 mapping score를 계산했다면, bowtie2에서는 local alignment를 통해 양 끝단을 한 두 베이스 'trimmed'('soft clipped') 하는 방식으로 좀 더 유연한 mapping을 수행하고 이를 이용한 further study에 힘을 줄 수 있게 됐다.

bowtie2 답게 default로는 end-to-end 방식을 사용하지만, local 방식을 위해서 --local 옵션을 이용할 수 있다. 아래의 커맨드는 간단한 local alignment의 예이다.

BT2_HOME/bowtie2 --local -x reference_bt2_index -U longreads.fq -S ref_vs_longreads.sam

bowtie2 install #

wget http://sourceforge.net/projects/bowtie-bio/files/bowtie2/2.2.4/bowtie2-2.2.4-source.zip unzip bowtie2-2.2.4-source.zip cd bowtie2-2.2.4/ make

bowtie2의 설치는 매우 간단하다. 리눅스 환경에서의 설치는 source code downloading, unzip, compiling 까지 단 세 단계로 이루어진다.

tips #

bowtie2를 이용한 tophat running시 bowtie2-inspect error 발생 #

최신 버전으로 업데이트 후 재분석했으나 동일한 에러가 발생했고 bowtie2-build시 다음과 같은 warning 메세지를 확인했다.

Warning: Encountered reference sequence with only gaps

반복서열이 마스킹된 유전체 서열을 이용한 분석의 경우 위의 에러 메세지를 확인할 수 있으며 이는 하나의 contig 전체가 반복서열로 인해 X또는 N으로 마스킹된 경우에 해당한다. 따라서 전체 contig 서열이 모두 마스킹된 경우가 있다면 해당 contig를 제외한 후 분석을 수행하도록 한다.

unmapped reads filtering #

bowtie2를 쓸 때 --un-conc 옵션을 쓰면 unmapped reads를 뽑아낼 수 있으나 이 경우 single로 맵핑된 read와 discondordantly mapped PE를 unmapped로 간주한다는 단점이 있다. 따라서 samtools를 이용한 unmapped reads filtering을 추천한다. samtools를 이요한 방법은 다음과 같다.

$ samtools view -bF 0x04 out.bam > mapped.bam
$ samtools bam2fq mapped.bam > mapped.fq # mapped reads

$ samtools view -bf 0x04 out.bam > unmapped.bam
$ samtools bam2fq unmapped.bam > unmapped.fq # unmapped rads

Incoming Links #

Related Bioinformaticses #

Suggested Pages #

0.0.1_20140628_0