Bowtie
#
Find similar titles
- 최초 작성자
- 최근 업데이트
Structured data
- Category
- Software
Table of Contents
Bowtie #
Bowtie은 어떤 Software ? #
Bowtie는 빠르고 효율적인 short read aligner이다. 이들은 large genome에 short DNA sequence(=reads)의 많은 set들을 빠르게 aligning하는 것을 목표로 설계되었다. Bowtie는 Burrows-Wheeler index와 함께 reference genome을 index하며 aligning output file은 standard SAM format이기 때문에 SAM format을 이용할 수 있는 SAMtools와 같은 SNP 그리고 indel caller 등의 다양한 tool들을 함께 사용할 수 있다. 대표적으로 함께 사용되는 tool은 :
- RNA-Seq read들을 위한 빠른 splice junction mapper인 TopHat
- RNA-Seq read들로부터 transcriptome assembly 그리고 isoform quantitiation을 하는 tool인 Cufflinks
- large-scale resequencing data를 위한 cloud-computing software tool인 Crossbow
- large RNA-seq datasets에서 다양한 gene expression을 계산하기 위한 cloud computing tool인 Myrna
Bowtie의 alignemnt #
Bowtie는 alignment를 하기 위해서 read set 그리고 index가 필요하다. alignment는 -v / -n / -e / -l option들을 조합해서 실행할 수 있다 (paired-end alignment를 위한 -I / -X / --fr / --rf / --ff option들도 있다.). 이 option들은 alignment를 위한 기본적인 option들 이다. 그리고 reporting mode를 위한 -k / -a / -m / -M / --best / --strata option들도 있다. Bowtie alignemnt는 일반적으로 -n alignment mode와 -v alignment mode가 있다. 만약 Bowtie를 사용할 때 많이 느리다면 performance-tuning을 사용한다(manual 내 performance-tuning을 참고).
Bowtie의 -n alignemnt mode #
-n option을 사용하면(default mode) Bowtie는 Maq의 default policy와 유사한 policy에 의해 유효한 alignment를 결정한다. 아래 대표적인 policy를 살펴보면:
- L base들(where L is a number 5 or greater, set with -l)내 N mismatche들(where N is a number 0-3, set with -n). 첫 번째 L base들은 "seed"라고 불린다.
- 모든 mismatched position들의(not just in the seed) Phred quality 값의 합은 E(set with -e)을 넘지 않는다.
만약 FASTA file로부터 reads들을 가져온다면 qualities는 얻을 수 없다(Phred quality defaults는 40). -n option은 공통적으로 -v option과 함께 사용할 수 없다. --best option이 명시되었을 때, Bowtie는 이들 criterion(criterion 1이 우선 사항)의 "best"라고 부르는 reported alignment(s)들을 보장한다. 그리고 best-to-worst 순서로 alignment들은 report 한다. 그리고 Bowtie는 --best가 명시되었을 때 약간 느려진다. 추가적으로 -y mode는 매우 sensitivity한 것을 보장할 수 있지만 비교적 느리다.
Bowtie의 Paired-end alignemnt #
Bowtie는 -1 그리고 -2 option들(FASTA 또는 FASTQ read file) 또는 --12 option들을(Tab-delimited read file들을 위한) 사용하여 paired-end read들을 align할 수 있다. paired-end alignment들은 보통 -k, -a 그리고 -m option들과 함께 사용하여 주어진 read들을 report한다. 그리고 paired-end mode에서는 --strata, --best option들을 사용할 수 없다.
Bowtie의 alignemnt할 때 보일 수 있는 문제점 #
하나 또는 그 이상의 애매모호한 reference character(N, -, R, Y, 등등)들은 alignment를 실행할 때 Bowtie에서 인식되지 않는다. 그래서 read 내에 애매모호한 character들은 정해진 alignment policy에 의해 mismatch 된다. default mode에서 Bowtie는 strand bias를 보일 수 있다. --best mode로 Bowtie를 실행시키면 Bowtie가 해당 strand들 중 가장 Quality가 좋은 site 수의 비율로 확률을 계산하여 strand를 선택하는 것을 강요해서 strand bias가 제거한다. 그리고 Bowtie는 Gapped alignment를 지원하지 않는다. Gapped alignment는 Bowtie2에서 지원하고 있다.
Command line #
-
Main arguments
- ebwt : search된 index의 basename
- m1 : 1 mate file. 만약 -c가 명시되었다면 GGTCATCCT,ACGGGTCGT 이런식의 sequence 사용할 수 있다.
- m2 : 1 mate file. 만약 -c가 명시되었다면 GGTCATCCT,ACGGGTCGT 이런식의 sequence 사용할 수 있다.
- r : Tab-delimited format에서 paired-end read 그리고 unpaired의 mix를 포함한 file
- s : align된 unpaired read들을 포함한 file
- hit : alignment output file
Reference #
Incoming Links #
Related Articles (Article 0) #
Related Bioinformaticses (Bioinformatics 1) #
- Alignment
- Bowtie2
- ChIP-seq
- GATK
- GBS read mapping
- MAPRseq
- RNA-seq 분석 방법
- RNA-seq 분석 방법 (책 발간용 글 편집 및 수정)
- Reference-guided Alignment
- TopHat
- 유전자 발현 관련 Public 데이터베이스 및 분석 도구 (책 발간용 글 편집 및 수정)
Suggested Pages #
- 0.352 Hot topics
- 0.352 Z-DNA
- 0.057 BioJava/MSA
- 0.054 자가불화합성
- 0.030 GBS read mapping/BWA
- 0.027 Sequencing Methods
- 0.023 Multiple alignment
- 0.019 MappingQuality
- 0.017 PDB
- 0.013 PICARD
- More suggestions...