Skip to content

Posts GATK #
Find similar titles

Structured data

Category
Software

Genome Analysis Tool Kit (GATK) #

Genome Analysis Tool Kit (GATK)는? #

Genome Analysis Tool Kit(GATK)는 Broad Institute에서 개발한 것으로 sequencing data(NGS)를 이용하여 genome내 모든 variant calling이 가능하도록 sub program들로 구성되어 있다. 예를 들어 만약 사용자가 exomeSeq 데이터를 가지고 rare variant을 확인하기를 원한다면 GATK를 통해서 분석할 수 있다. 특히 GATK는 human 이외에도 모든종의 genome에 적용 가능하며, 다양한 sequencing technologies에서 생성된 data를 사용할 수 있는 이점이 있다.

GATK의 사용 #

  • Reference Mapping Tool 이후에 나온 결과를 분석 ( Bowtie, Bowtie2 )
  • 입력: BAM 파일 등(SAM 포맷은 데이터가 크기 때문에, 압축된 사이즈의 BAM파일을 사용 )
  • 결과: VCF 파일
  • 핵심 아이디어: Map Reduce Technique

GATK_1

  • Interface : GATK는 graphical user interface를 지원하지 않는다. 모든 tool들은 command-line interface를 통해서 사용할 수 있다.
  • Command structure와 tool arguments : 모든 GATK tool들은 기본적인 command structure를 사용한다. 대부분의 tool들은 특정한 기능을 가지고 있으며 추가적인 argument를 가지고 있다. 각 tool들에 대한 정보들은 각 tool들의 documentation page에서 확인할 수 있다.
  • 일반적인 Workflows : DNA를 분리한 이후 모든 작업은 잘 서식화된 protocol을 통해서 한 단계의 과정으로 진행할 수 있다. GATK는 NGS data를 이용하여 사용자의 manual handling을 통해 단계적으로 진행한다.

    • Variant discovery, genotyping 그리고 filtering : GATK에서 sample들 사이의 sequence variation을 찾는 방법으로는 신뢰할 수 있는 variant call set을 생산하는 필수적인 단계를 통하여 분석을 guide하고 사용자의 data set에 적절한 parameter를 선택하는데 도움을 준다. 그리고 다양한 option들은 사용자가 분석하고자 하는 대상이 whole genome 또는 exoms 그리고 type, 수 그리고 coverage depth에 따라서 선택할 수 있게 해준다.
    • Variant discovery 는 sample별 sequence variation을 찾는다. 이 variant의 종류는 SNP, Indel, structural variation의 3가지 방법으로 얻을 수 있다.

      • SNP(Single Nucleotide Polymorphisoms) : 단일 염기 다형성. 유전정보의 복사 오류에서 발생. 이로 인해 유전적 차이 발생
      • Indel (Insertion & Deletion) : 유전적 정보의 추가 혹은 삭제. 이로 인한 유전적 차이
      • Structural variation : 유전 구조적 차이
    • Genotyping은 유전자형을 결정하는 단계, 사람마다 유전자형이 다른데 이를 통해 각 개체를 구분한다. 위의 variant discovery를 통해 유전자형을 결정할 수 있다.

    • GATK를 이용한 variants calling의 best practices : Reads-to-results variant calling workflow는 GATK를 이용해 최종 variant calling ( VCF )까지의 모든 단계들을 모범 사례를 활용해서 lay out 되었다. 더욱 상세한 정보는 Best Practices documentation에서 확인할 수 있다.

  • 다양한 보정 작업을 통해 variant의 정확도를 높인다 (Local Realignment/ Base Quality Recalibration).

    • Local Realignment False positive를 불러올 수 있는 indels 막기 위해 possible indel table을 생성하고, realignment를 진행

      > java -Xmx4g -jar GenomeAnalysisTK.jar \
      -T RealignerTargetCreator \
      -R hg19.fa \
      -o input.bam.list \ 
      -I input.marked.bam
      
    • realign reads,

      > java -Xmx4g -Djava.io.tmpdir=/tmp \
       -jar GenomeAnalysisTK.jar \
       -I input.marked.bam \
       -R hg19.fa \
       -T IndelRealigner \
       -targetIntervals input.bam.list \
       -o input.marked.realigned.bam
      
    • 만약 pair-end 라면,

        > java -Djava.io.tmpdir=/tmp/flx-auswerter \
        -jar picard/FixMateInformation.jar \
        INPUT=input.marked.realigned.bam \
        OUTPUT=input_bam.marked.realigned.fixed.bam \
        SO=coordinate \
        VALIDATION_STRINGENCY=LENIENT \
        CREATE_INDEX=true
      
    • Base Quality Recalibration BAM file format안에 있는 각 리드 QUAL field 값이 더 정교해지도록 하며, quality score는 리드가 어느 정도 오류를 가지고 있는지를 뜻하는데 recalibration을 통해 이 값을 refine한다고 보면 된다.

GATK_2

  • 각 리드에 variant discovery와 genotyping을 처리한 후에 각 raw variants들을 통합 분석한다.

  • 분석 결과 후 나온 VCF파일은 이후 PLINK를 이용한 다양한 GWAS 분석에 활용된다.

Reference #

Incoming Links #

Related Bioinformaticses #

Suggested Pages #

Other Posts #

0.0.1_20140628_0