Skip to content

Fastx-Toolkit #
Find similar titles

Structured data

Category
Software

개요 #

NGS data의 Pre-processing에 이용되는 오픈소스 프로그램

설치 #

설치 가이드를 참고한다. libgtextutils 설치와 PKG_CONFIG_PATH 설정이 선행되어야 한다.

프로그램 #

Fastx-Toolkit에는 여러 프로그램들이 포함되어 있는데 그 중 자주 쓰는 프로그램은 다음과 같다.

  1. fastq_quality_filter

    Read 내 low quality의 비율을 계산하여 cutoff 이상인 경우 read trimming 수행

    $ fastq_quality_filter -q 20 -p 80 -o [output.fq] -i [input.fq] -Q 33 -v
    
  2. fastq_quality_trimmer

    3' 말단에 low quality base가 연속될 경우 해당 영역 trimming 수행

    $ fastq_quality_trimmer -v -t 20 -l 20 -o [output.fq] -i [input.fq]
    
  3. fastx_clipper

    Adapter 서열의 존재 유무를 검색하여 해당 adapter 서열이 발견되는 경우 trimming 수행

    $ fastx_clipper -a [adapter sequence] -n -o [output.fq] -i [input.fq] -v
    
  4. fastx_quality_stats

    fastq 파일의 Quality score에 대한 정보 (read position/base 별 quality score 분포)를 출력. fastq_quality_boxplot_graph.sh와 fastx_nucleotide_distribution_graph.sh 스크립트를 사용하여 이미지 파일로 확인 가능.

    $ fastx_quality_stats -i BC54.fq -o [output.txt] -i [input.fq]
    $ fastq_quality_boxplot_graph.sh -i [output.txt from fastx_quality_stats] -o [output.png] -t "My Library"
    $ fastx_nucleotide_distribution_graph.sh -i [output.txt from fastx_quality_stats] -o [output.png] -t "My Library"
    

주의사항 #

Paired-end reads를 동시에 처리할 수 없으므로 만약 pair 중 한쪽 read의 quality가 떨어지면 single read가 생기게 된다. 이 경우 pre-processing 결과 얻어진 파일을 다시 필터링하여 paired-end와 single read로 분리해야 한다.

Default quality score는 64로 주어지므로 quality score 33의 데이터를 분석할 경우 Q 파라미터 (-Q 33)를 입력해 주어야 한다.

0.0.1_20210630_7_v33