Skip to content

Posts GATK #
Find similar titles

Structured data

Category
Software

Genome Analysis Tool Kit (GATK) 1 #

Genome Analysis Tool Kit (GATK)는? #

Genome Analysis Tool Kit(GATK)는 Broad Institute에서 개발한 것으로 sequencing data(NGS)를 이용하여 genome 내 모든 variant calling이 가능하도록 sub program들로 구성되어 있다. 예를 들어 만약 사용자가 exomeSeq 데이터를 가지고 rare variant을 확인하기를 원한다면 GATK를 통해서 분석할 수 있다.

특히 GATK는 human 이외에도 모든 종의 genome에 적용 가능하며, 다양한 sequencing technologies에서 생성된 data를 사용할 수 있는 이점이 있다.

  • 입력: BAM 파일 등
    • SAM 포맷은 데이터가 크기 때문에, 압축된 사이즈의 BAM 파일을 사용.
    • 또한, GATK의 인풋으로 사용되는 매핑 파일은 서열의 position 별로 sorting된 파일을 사용해야 함.
      • SAMtools의 sort를 사용하여 position 별로 sorting 하면 됨.
  • 결과: VCF 파일
  • 핵심 아이디어: Map Reduce Technique

  • Interface : GATK는 graphical user interface를 지원하지 않는다. 모든 tool들은 command-line interface를 통해서 사용할 수 있다.

  • Command structure와 tool arguments : 모든 GATK tool들은 기본적인 command structure를 사용한다. 대부분의 tool들은 특정한 기능을 가지고 있으며 추가적인 argument를 가지고 있다. 각 tool들에 대한 정보들은 각 tool들의 documentation page에서 확인할 수 있다.
    • Tool Documentation 5

GATK 분석 과정 #

GATK Germline variant calling pipeline

Fig1. 기본적인 변이 분석 단계. 출처 : 2

  1. 참조 서열에 매핑
  2. GATK를 실행하기 전, picard MarkDuplicates 3를 이용하여 동일한 위치에 매핑된 리드들은 시퀀싱 과정 중, 증폭 과정에서 생긴 duplicate이라 판단하여 제거함. 하지만 GBS와 같이 제한효소 부위에 잘려 시퀀싱이 되는 경우는 위와 같은 이유라고 하더라도 반드시 시퀀싱 과정 중에 생긴 에러라고 판단하기 어려우므로, 이 데이터를 사용할 때에는 진행하지 않는다. picard Duplicates

    Fig2. picard Duplicates. 출처 : 4

  3. WGS, GBS가 아닌 RNA-seq 데이터를 사용할 때에는 추가적으로 GATK SplitNCigarReads 로 전처리 진행 후, 변이 분석을 진행해야 한다.

GATK RNAseq variant calling pipeline

Fig3. RNA-seq 데이터 변이 분석 단계. 출처 : 2

  1. GATK HaplotypeCaller으로 개체별로 변이를 발굴한다. GATK에서 sample들 사이의 sequence variation을 찾는 방법으로는 신뢰할 수 있는 variant call set을 생산하는 필수적인 단계를 통하여 분석을 guide 하고 사용자의 data set에 적절한 parameter를 선택하는 데 도움을 준다. 그리고 다양한 option들은 사용자가 분석하고자 하는 대상이 whole genome 또는 exoms 그리고 type, 수 그리고 coverage depth에 따라서 선택할 수 있게 해준다.
    • Variant discovery는 sample 별 sequence variation을 찾는다. 이 variant의 종류는 SNP, Indel, structural variation의 3가지 방법으로 얻을 수 있다.
    • SNP(Single Nucleotide Polymorphisoms) : 단일 염기 다형성. 유전정보의 복사 오류에서 발생. 이로 인해 유전적 차이 발생
    • Indel (Insertion & Deletion) : 유전적 정보의 추가 혹은 삭제. 이로 인한 유전적 차이
    • Structural variation : 유전 구조적 차이
  2. GATK CombineGVCF, GenotypeGVCF, SelectVariants를 순차적으로 실행 후, vcftoolsPLINK를 이용하여 다양한 GWAS 분석에 활용된다.
    • Genotyping은 유전자형을 결정하는 단계, 사람마다 유전자형이 다른데 이를 통해 각 개체를 구분한다. 위의 variant discovery를 통해 유전자형을 결정할 수 있다.

References #

  • GATK Website 1
  • GATK Best Practices 2
  • picard MarkDuplicates 3
  • picard MarkDuplciates 설명 그림 4
  • GATK Tool Manual 5

Incoming Links #

Related Bioinformaticses #

Suggested Pages #

Other Posts #

0.0.1_20210630_7_v33