NGS 분석의 pre-processing 단계에서, contamination 되거나 낮은 퀄리티의 데이터를 제거하는 작업을 말한다. 즉, 시퀀싱한 raw 데이터는 trimming 과정을 거쳐 clean 데이터로 assembly나 alignment (mapping)을 수행할 수 있다.
Table of Contents
Adapter trimming #
Sequencing 데이터를 분석하기 전에 반드시 adapter를 제거해야 한다. sequencing을 하기 위해서는 adapter가 있어야 sequence 합성이 되는데 이 sequencing 단계 후 assembly는 순수한 샘플 DNA sequence로 해야하므로, read 말단에 존재하는 adapter를 제거해야 데이터 퀄리티가 올라가 정확한 분석이 된다. de novo assembly와 small RNA sequencing에선 필수 작업이고 결과적으로 mapping rate가 올라가게 된다.
* program : CLC adapter trim (CLC Assembly cell), Trim Sequences (CLC Genomics Workbench), CutAdapt, Trim Galore, Next Clip 등 다양한 adapter trimming tool이 있다. (https://omictools.com/adapter-trimming-category)
Quality trimming #
Base call에서 에러가 나면 de novo assembly에서 bubble이 생길 수 있고, mapping rate와 variant calling에서 잘못된 결과가 나오게 된다. 그러므로 quality score가 낮은 region을 제거하는데, 이 때 FastQC, BWA, CutAdapt, CLC Bio 등에서 modified Mott algorithm의 조금씩 다른 Phred scale을 quality score cut off로 설정한다.
* program : CLC quality trim (CLC Assembly Cell), Trim Sequences (CLC Genomics Workbench), FastQC, BWA, CutAdapt, Next Clip 등
- FASTQ Phred Scale or Score :
- automated DNA sequencing 결과로 만들어진 (sequences) nucleobases의 quality를 나타낸다. (각각의 nucleotide base call에 따른 값)
- DNA sequences의 quality를 나타내는데 널리 쓰이고, 다른 sequencing methods의 효율성을 비교하는데 쓰인다.
- phred scores가 중요하게 쓰이는 곳은 quality based의 consensus sequences accuracy를 결정하는데 쓰인다.
- Q = phred quality scores, P = base-calling error probabilities
Length trimming #
실험의 한계로 인하여 read가 길어질수록 데이터의 퀄리티는 떨어질 수 밖에 없다. 따라서 낮은 퀄리티의 데이터를 제거하기 위해 read 앞, 뒤쪽에서 지정해준 길이만큼 잘라내어 분석에 사용할 수 있고, 이 때 유의할 점은 fastq의 모든 서열과 퀄리티를 나타낸 문자열의 길이가 모두 동일해야 한다는 것이다. 이것은 adapter trimming과 함께 small RNA 분석에서 필수적이다.
* program : Trim Sequences (CLC Genomics Workbench), BWA, Bowtie, Shrimp, 등
이 밖에 duplicate trimming, bacteria contamination trimming 등 낮은 퀄리티 데이터를 제거하기 위한 다양한 trimming 방법이 있다.
Reference #
https://en.wikibooks.org/wiki/Next_Generation_Sequencing_(NGS)/Pre-processing
https://en.wikipedia.org/wiki/Phred_quality_score