Trimmomatic
#
Find similar titles
- 최초 작성자
- 최근 업데이트
Structured data
- Category
- Software
Table of Contents
About trimmomatic #
Trimmomatic은 Illumina의 시퀀싱 장비에서 생성된 NGS(Next-generation sequencing) 데이터의 다양한 trimming 작업을 효과적으로 수행한다. 다양한 trimming steps은 command line에서 주어진 parameters를 기반으로 수행된다.
Process of trimming #
현재(v0.32) 제공되는 trimming steps은 아래와 같다.
1.ILLUMINACLIP (ILLUMINACLIP:TruSeq3-PE.fa:2:30:10) : read에 존재하는 adapter sequence와 기타 illumina-specific sequence를 제거한다.
ILLUMINACLIP:<fastaWithAdaptersEtc>:<seed mismatches>:<palindrome clip threshold>:<simple clip threshold>
- FastaWithAdaptersEtc : TruSeq3-SE.fa는 install path내의 adapters directory에 존재하는 해당 adater fasta파일을 calling해 사용한다. ex) install_path/latest/adapters/TruSeq3-SE.fa
- Seed mismatches : 최초 16 bases를 seed로 놓고 이를 full match가 허용하는만큼 확장한다. full match에 허용할 mismatch의 최소값(2)
- PalindromeClipThreshold : paried-ended data의 경우 score 값(30) /약 50 bases
- SimpleClipThreshold : single-ended data의 경우 score 값(10) /약 17 bases
2.SLIDINGWINDOW (SLIDINGWINDOW:4:15) : 주어진 window(similar to mer) 상수값(4)만큼 sequence를 sliding하며 window falls (4)내의 average quality가 주어진 값(15)보다 낮을 경우 제거한다.
SLIDINGWINDOW:<windowSize>:<requiredQuality>
3.LEADING (LEADING:3): a read의 앞쪽이 주어진 threshold quality보다 낮은 경우 제거한다.
LEADING:<quality>
4.TRAILING (TRAILING:3): a read의 뒤쪽이 주어진 threshold quality보다 낮은 경우 제거한다.
TRAILING:<quality>
5.CROP : 명시된 길이만큼 read의 뒤쪽부분을 제거한다.
CROP:<length>
6.HEADCROP : 명시된 길이만큼 read의 앞쪽부분을 제거한다.
HEADCROP:<length>
7.MINLEN : 명시된 길이보다 짧을 경우 버린다.
MINLEN:<length>
8.TOPHRED33 : quality scores를 Phread-33으로 변경한다.
TOPHRED33 (no further parameters)
9.TOPHRED64 : quality scores를 Phread-64로 변경한다.
TOPHRED64 (no further parameters)
Input of trimmomatic #
Trimmomatic은 [[FASTQ}}파일을 input으로 명시하고 있으며, quality는 -phred33 혹은 -phread64(default)로 command line에 명시해야한다. 이 부분은 곧 autodetected로 업데이트 될 예정이다. .gz확장자로 끝나는 경우 gzip form으로 인식하여 압축파일 자체로도 input 할 수 있다 (also .bz2).
Output of trimmomatic #
Single-ended data의 경우 1 input and 1 output이며, paired-ended data의 경우 2 input and 4 output이다. 4개의 output 중 2개는 모든 조건에 만족하는 clean paired-ended data 이고 나머지 2개의 output은 조건에 맞는 clean data 이지만 partener reads는 그렇지 못한 경우 clean single-ended data로 output 된다.
trimming log #
comman line에 명시한 -trimlog 을 통해 trimming log를 확인할 수 있다. 5(6)개의 colume으로 구성되며 각 항목은 아래와 같다.
- The raed name
- The surviving sequence length
- The location of the first surviving base, aka. the amount trimmed from the start
- The location of the last surviving base in the original read
- The amount trimmed from the end
- ?
Reference #
http://www.usadellab.org/cms/index.php?page=trimmomatic
Incoming Links #
Related Articles (Article 0) #
Related Bioinformaticses (Bioinformatics 1) #
Suggested Pages #
- 0.629 삭제요청
- 0.115 SASS
- 0.110 객체클레스
- 0.048 Chained exceptions
- 0.028 FAQ
- 0.025 Gene ontolgy database
- 0.011 Policy
- 0.009 Q&A
- 0.008 오픈 테스트
- 0.008 글쓰기 지침
- More suggestions...