Skip to content

VCF #

Find similar titles

6회 업데이트 됨.

Edit
  • 최초 작성자
    JehongLee
  • 최근 업데이트
    shlee

Structured data

Category
Biology

개요 #

VCF 파일은 Variant Call Format으로 생물정보학적 텍스트 파일 포맷이다. GATK tool kit의 결과 파일이며, 유전자 서열 변이(Gene Sequence variation) 정보를 가지고 있다. 이 파일 포맥을 유전형 분석(Genotyping)과 1000 Genome Project 같은 DNA 서열을 해독하는 대규모 프로젝트와 함께 발전되었다.

파일 형식 #

VCF 파일을 열어보면 해당 데이터에 대한 설명이 ##을 통해 주석으로 달려있다. CHROM, POS, ID, REF, ALT, QUAL, FILTER, INFO, FORMAT, Sample1 등과 같은 헤더 정보가 있으며, 그 아래에 실제의 variant 정보를 확인할 수 있다.

##fileformat=VCFv4.0
##fileDate=20110705
##reference=1000GenomesPilot-NCBI37
##phasing=partial
##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data">
##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth">
##INFO=<ID=AF,Number=.,Type=Float,Description="Allele Frequency">
##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele">
##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129">
##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership">
##FILTER=<ID=q10,Description="Quality below 10">
##FILTER=<ID=s50,Description="Less than 50% of samples have data">
##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth">
##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality">
#CHROM POS    ID        REF  ALT     QUAL FILTER INFO                              FORMAT      Sample1        Sample2        Sample3
2      4370   rs6057    G    A       29   .      NS=2;DP=13;AF=0.5;DB;H2           GT:GQ:DP:HQ 0|0:48:1:52,51 1|0:48:8:51,51 1/1:43:5:.,.
2      7330   .         T    A       3    q10    NS=5;DP=12;AF=0.017               GT:GQ:DP:HQ 0|0:46:3:58,50 0|1:3:5:65,3   0/0:41:3
2      110696 rs6055    A    G,T     67   PASS   NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2   2/2:35:4
2      130237 .         T    .       47   .      NS=2;DP=16;AA=T                   GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:56,51 0/0:61:2
2      134567 microsat1 GTCT G,GTACT 50   PASS   NS=2;DP=9;AA=G                    GT:GQ:DP    0/1:35:4       0/2:17:2       1/1:40:3

VCF header #

VCF 파일의 header 부분에서는 파일 본문 내용을 설명하는 메타데이터를 제공한다. 권장되는 키워드에는 파일형식(fileformat), 파일생성일자(filedate), 참조파일(reference)가 있으며 선택적으로 아래 정보들을 포함한다.

* INFO : 변이를 나타내는 키-값 쌍(key-value pairs)(필드)의 확장 가능한 목록
* FILTER : 제공된 일련의 필터 중 어떤 것이 통과되었는지 나타내는 플래그(flag)
* FORMAT : 샘플에 대한 설명을 위한 필드의 확장 가능한 목록

VCF columns #

VCF 파일의 본문은 header 정보를 기반으로, 8개의 필수적인 열과 샘플에 대한 다른 정보들을 포함하는 무제한의 열로 이루어져 있으며, 이들은 탭(tab)으로 분리되어 있다.

컬럼명 설명
CHROM(염색체) 참조 유전체의 식별자 또는 어셈블리 파일(헤더의 ##assembly 라인 참조)에서 특정 contig, scaffolds를 가리키는 ID 문자열("")임. 특정 CHROM에 대한 모든 항목은 VCF 파일 내에서 연속적으로 형성해야 한다. (문자열 및 공백 작성 불가)
POS(포지션) 첫 번째 위치는 참조서열 내 첫 번째 위치와 동일하며, 위치는 각 참조서열 유전체 내에서 오름차순으로 숫자로 정렬된다. 동일한 위치에는 여러 레코드 표기 가능하다. (작성 시 정수 필수)
ID(식별자) 세미콜론으로 구분된 고유 식별자 목록으로 만약에 dbSNP 변형인 경우 rs 번호를 사용을 추천한다. 사용 가능한 식별자가 없으면 누락된 값을 사용하면 된다. (문자열, 공백이나 세미콜론은 허용되지 않음)
REF(참조 염기서열) 비교 시 참조된 원본 염기서열로, 작성 시 A,C,G,T,N 중 하나여야 합한다. (대소문자 구분 안 함). POS 필드의 값은 문자열에서 첫 번째 염기의 위치를 나타낸다. REF 또는 ALT 대립 유전자 중 하나가 null 또는 공백과 같은 간단한 삽입 및 삭제인 경우 특별한 변이가 없는 한 REF 및 ALT 문자열은 변경 전의 염기를 포함하여 작성해야 한다.
ALT(대체 염기서열) 대체가 되는 비참조 대립유전자를 표기하며, 쉼표로 구분한다. 기본적으로 A, C, G, T, N, * (대소문자 구분 안 함) 또는 ID 문자열("")로 구성된 기본 문자열 내에 표기하며, * 표기는 대립유전자 삭제로 인해 대립유전자가 누락되었음을 의미한다.
QUAL(품질) ALT가 된 Phred 척도 품질점수(Phred-scaled quality score)로 변이관련 품질 점수는 주어진 유전체 위치가 적어도 하나의 샘플에서 변이를 표시하며 변이 호출자가 올바르게 식별되었다는 hred-척도 추정치이다.
FILTER (필터 상태) 이 위치가 모든 필터를 통과한 경우 PASS로 표기하며 이 위치에서 변이가 호출되었으며, 만약 모든 필터를 통과하지 못하면 실패한 필터에 대한 코드 목록을 작성하다.(세미콜론으로 구분)
예를 들며, "q10;s50"은 이 위치에서 품질이 10 미만이고 데이터가 있는 샘플 수가 총 샘플 수의 50% 미만임을 나타낼 수 있습니다.
INFO(추가정보) 추가적인 정보

INFO 주요 예시 #

INFO는 사용하지 않는 경우도 있지만, 대표적으로 사용하는 표기는 다음과 같다.

정보 축약어 설명
AA ancestral allele
AC allele count in genotypes, for each ALT allele, in the same order as listed
AF allele frequency for each ALT allele in the same order as listed: use
AN total number of alleles in called genotypes
BQ RMS base quality at this position
CIGAR cigar string describing how to align an alternate allele to the reference allele
DB dbSNP membership
DP combined depth across samples, e.g. DP=154
END end position of the variant described in this record (for use with symbolic alleles)
H2 membership in hapmap2
H3 membership in hapmap3
MQ RMS mapping quality, e.g. MQ=52
MQ0 Number of MAPQ == 0 reads covering this record
NS Number of samples with data
SB strand bias at this position
SOMATIC indicates that the record is a somatic mutation, for cancer genomics
VALIDATED validated by follow-up experiment
1000G membership in 1000 Genomes

Format (Genotye) #

필수 컬럼은 아니지만, 유전자형(Genotype fields)이 있는 경우 Format 컬럼을 사용한다.유전자형 정보가 있는 경우 모든 샘플에 대해 동일한 유형의 데이터가 있어야 하며, 먼저 포맷 데이터 유형 및 순서(콜론으로 구분된 영숫자 문자열)를 지정하는 필드를 제공한다. 주로 사용하는 태그정보는 다음과 같다.

태그 명칭 설명
GT Position에 대한 샘플의 Genotype
예) 0/0 – homozygous reference 의미
예) 0/1 – heterozygous로 REF/ALT allele이 있음을 의미
예) 1/1 – homozygous alternate를 의미
AD Unfiltered Allele Depth를 의미(콤마로 구분)
DP Filtered Depth를 의미
PL 예측 가능한 Genotype의 Normalized Phred-scaled likelihoods 의미
GQ Genotype Quality를 의미, Phred-scaled confidence로 GT가 맞는 확률에 대해 알려줌
MQ RMSMappingQuality

Reference #

Incoming Links #

Related Data Sciences #

Related Articles #

Related Bioinformaticses #

Suggested Pages #

0.0.1_20230725_7_v68