Fastx-Toolkit
#
Find similar titles
Structured data
- Category
- Software
개요 #
NGS data의 Pre-processing에 이용되는 오픈소스 프로그램
설치 #
설치 가이드를 참고한다. libgtextutils 설치와 PKG_CONFIG_PATH 설정이 선행되어야 한다.
프로그램 #
Fastx-Toolkit에는 여러 프로그램들이 포함되어 있는데 그 중 자주 쓰는 프로그램은 다음과 같다.
-
fastq_quality_filter
Read 내 low quality의 비율을 계산하여 cutoff 이상인 경우 read trimming 수행
$ fastq_quality_filter -q 20 -p 80 -o [output.fq] -i [input.fq] -Q 33 -v
-
fastq_quality_trimmer
3' 말단에 low quality base가 연속될 경우 해당 영역 trimming 수행
$ fastq_quality_trimmer -v -t 20 -l 20 -o [output.fq] -i [input.fq]
-
fastx_clipper
Adapter 서열의 존재 유무를 검색하여 해당 adapter 서열이 발견되는 경우 trimming 수행
$ fastx_clipper -a [adapter sequence] -n -o [output.fq] -i [input.fq] -v
-
fastx_quality_stats
fastq 파일의 Quality score에 대한 정보 (read position/base 별 quality score 분포)를 출력. fastq_quality_boxplot_graph.sh와 fastx_nucleotide_distribution_graph.sh 스크립트를 사용하여 이미지 파일로 확인 가능.
$ fastx_quality_stats -i BC54.fq -o [output.txt] -i [input.fq] $ fastq_quality_boxplot_graph.sh -i [output.txt from fastx_quality_stats] -o [output.png] -t "My Library" $ fastx_nucleotide_distribution_graph.sh -i [output.txt from fastx_quality_stats] -o [output.png] -t "My Library"
주의사항 #
Paired-end reads를 동시에 처리할 수 없으므로 만약 pair 중 한쪽 read의 quality가 떨어지면 single read가 생기게 된다. 이 경우 pre-processing 결과 얻어진 파일을 다시 필터링하여 paired-end와 single read로 분리해야 한다.
Default quality score는 64로 주어지므로 quality score 33의 데이터를 분석할 경우 Q 파라미터 (-Q 33)를 입력해 주어야 한다.