Skip to content

Trimmomatic #

Find similar titles

2회 업데이트 됨.

Edit
  • 최초 작성자
    Jaeng
  • 최근 업데이트
    javis

Structured data

Category
Software

About trimmomatic #

Trimmomatic은 Illumina의 시퀀싱 장비에서 생성된 NGS(Next-generation sequencing) 데이터의 다양한 trimming 작업을 효과적으로 수행한다. 다양한 trimming steps은 command line에서 주어진 parameters를 기반으로 수행된다.

Process of trimming #

현재(v0.32) 제공되는 trimming steps은 아래와 같다.

1.ILLUMINACLIP (ILLUMINACLIP:TruSeq3-PE.fa:2:30:10) : read에 존재하는 adapter sequence와 기타 illumina-specific sequence를 제거한다.

ILLUMINACLIP:<fastaWithAdaptersEtc>:<seed mismatches>:<palindrome clip threshold>:<simple clip threshold>
  • FastaWithAdaptersEtc : TruSeq3-SE.fa는 install path내의 adapters directory에 존재하는 해당 adater fasta파일을 calling해 사용한다. ex) install_path/latest/adapters/TruSeq3-SE.fa
  • Seed mismatches : 최초 16 bases를 seed로 놓고 이를 full match가 허용하는만큼 확장한다. full match에 허용할 mismatch의 최소값(2)
  • PalindromeClipThreshold : paried-ended data의 경우 score 값(30) /약 50 bases
  • SimpleClipThreshold : single-ended data의 경우 score 값(10) /약 17 bases

2.SLIDINGWINDOW (SLIDINGWINDOW:4:15) : 주어진 window(similar to mer) 상수값(4)만큼 sequence를 sliding하며 window falls (4)내의 average quality가 주어진 값(15)보다 낮을 경우 제거한다.

SLIDINGWINDOW:<windowSize>:<requiredQuality>

3.LEADING (LEADING:3): a read의 앞쪽이 주어진 threshold quality보다 낮은 경우 제거한다.

LEADING:<quality>

4.TRAILING (TRAILING:3): a read의 뒤쪽이 주어진 threshold quality보다 낮은 경우 제거한다.

TRAILING:<quality>

5.CROP : 명시된 길이만큼 read의 뒤쪽부분을 제거한다.

CROP:<length>

6.HEADCROP : 명시된 길이만큼 read의 앞쪽부분을 제거한다.

HEADCROP:<length>

7.MINLEN : 명시된 길이보다 짧을 경우 버린다.

MINLEN:<length>

8.TOPHRED33 : quality scores를 Phread-33으로 변경한다.

TOPHRED33 (no further parameters)

9.TOPHRED64 : quality scores를 Phread-64로 변경한다.

TOPHRED64 (no further parameters)

Input of trimmomatic #

Trimmomatic은 [[FASTQ}}파일을 input으로 명시하고 있으며, quality는 -phred33 혹은 -phread64(default)로 command line에 명시해야한다. 이 부분은 곧 autodetected로 업데이트 될 예정이다. .gz확장자로 끝나는 경우 gzip form으로 인식하여 압축파일 자체로도 input 할 수 있다 (also .bz2).

Output of trimmomatic #

Single-ended data의 경우 1 input and 1 output이며, paired-ended data의 경우 2 input and 4 output이다. 4개의 output 중 2개는 모든 조건에 만족하는 clean paired-ended data 이고 나머지 2개의 output은 조건에 맞는 clean data 이지만 partener reads는 그렇지 못한 경우 clean single-ended data로 output 된다.

trimming log #

comman line에 명시한 -trimlog 을 통해 trimming log를 확인할 수 있다. 5(6)개의 colume으로 구성되며 각 항목은 아래와 같다.

  • The raed name
  • The surviving sequence length
  • The location of the first surviving base, aka. the amount trimmed from the start
  • The location of the last surviving base in the original read
  • The amount trimmed from the end
  • ?

Reference #

http://www.usadellab.org/cms/index.php?page=trimmomatic

Incoming Links #

Related Articles #

Related Bioinformaticses #

Suggested Pages #

0.0.1_20231010_1_v71