Skip to content

Posts pVAC-Seq #
Find similar titles

Structured data

Category
Software

pVAC-Seq #

Motivation #

인간 게놈 프로젝트가 진행되고, 유전체의 유전정보를 대규모로 분석할 수 있게 되면서 암 환자 개인의 유전정보를 바탕으로 '맞춤형 암백신'을 제작하려는 시도가 계속되고 있다. 특정 개인이 가진 종양세포의 항원을 탐지, 발견하여 면역체계를 활성화시키는 백신을 제작하는 것이다. 종양세포에서만 발현되는 항원을 인지한 몸 속의 면역세포들이 암세포만 공격함으로써 종양만 제거하고 일반 정상세포와 장기들을 지킬수 있도록 하는 것이다.

면역의 가장 기본은 외인성 또는 내인성 유발 이물질에 대한 식별력을 바탕으로 한다. 외부에서 발생한 병소는 저마다 특유의 분자적 특징을 가지고 있어 숙주가 인식하고 면역반응을 활성화하지만, 암세포는 분자적 특징이 잘 발현되지 않기 때문에 면역체계가 이를 일반세포와 구별해서 인식하는데에 어려움이 있다.

Neoantigen(신항원) #

우리 몸의 T세포는 암세포가 발현하는 암 항원을 통해 종양세포를 인식한다. 암세포에 발현하는 항원은 종양연관항원(Tumor-associated antigen; TAA)와 종양 특이적 항원(Tumor-specific antigen;TSA)으로 분류할 수 있다.

종양연관항원(TAA)는 정상 세포보다 암세포에서 많이 나타나거나 정상세포와 다른 분화단계에서 나타나는 항원을 말하고, 종양 특이적 항원(TSA)는 암세포에서만 특이적으로 존재하는 항원이다. 이 항원은 단백질 서열에 영향을 주는 DNA 부분의 변이(mutation)나 잠재적 유전자의 활성 등으로 인해 새로운 항원을 생성하는 데 이를 신항원(neoantigen)이라고 한다.

Image

pVAC-Seq의 정의 #

pVAC-Seq(in silico automated pipeline for neoantigen prediction)으로 DNA와 RNA 서열 데이터를 이용하여 면역에 대한 개별적인 백신을 사용하기 위해 종양의 변이에 대하여 후보군이 되는 neoantigen 펩티드를 발견할 수 있게 하는 파이프라인이다.

pVAC-Seq의 Workflow #

다음 그림과 같이 pVAC-Seq 파이프라인은 4가지 단계로 구성되어 있다.

Image

1. Prepare input data(입력 데이터 준비) #

pVAC-Seq을 수행하기 위해서는 다음과 같은 3가지 입력파일이 필요하다.

1. 체세포 변이호출프로그램에 의한 non-synonymous 변이 리스트(VCF)
2. 그 변이 리스트에 대한 아미노산 레벨에서의 변화 annotation(VEP)
3. 암환자에 대한 HLA(조직적합항원) haplotype(HLAminer)

1) variant calling을 통한 non-synonymous SNP에 대한 VCF 파일 생성

먼저 non-synonymous 한 변이를 호출하기 위해서는 전장 유전체 데이터(WGS) 혹은 엑솜 유전체 데이터(ES)에 대해 정렬과 변이 호출 등을 포함하는 GMS(Genome Modeling System)을 사용해야 한다. 일반적으로 BWA(ver 0.5.9)를 사용하여 정렬을 수행하고, Picard(ver 1.46)을 통해 duplication을 제거하여 전처리를 수행하고, 변이 호출에 대해서는 samtools mpileup(v0.1.16), somatic sniper(1.0.2), varscan somatic(2.2.6) 등의 프로그램을 이용하여 후보가 되는 변이 목록을 담고 있는 VCF 파일을 만든다. 프로그램을 이용한 변이 호출 옵션 및 방법은 다음 그림과 같다.

Image

2) 변이 후보 리스트를 통한 각 아미노산 레벨에서의 변화의 중요도 확인을 위한 annotation(VEP)

이렇게 호출한 변이 후보에 대해서 아미노산 레벨에서의 annotation을 위해 VEP(Variant Effect Predictor) 프로그램을 사용하여 SIFT 혹은 Phylop 등과 같은 단백질에 영향을 미치는 변이에 대한 위험강도 정보에 대해 수치자료를 이용하여 확인할 수 있다. 단, pVAC-seq에서 input file로 사용되기 때문에 필수적으로 downstream, wildtype 옵션을 추가해주어야 한다.

3) 각 샘플에 대한 HLA allele prediction(HLAminer)

사람의 조직 적합성 복합체(Major Histocompatibility Complex, MHC) 유전자인 HLA 항원을 샘플에 가장 적합한 allele를 우선순위에 따라 예측한다. 미리 프로그램 상에서 지정해 놓은 IMGT/HLA DB(HLA_ABC_GEN.fasta)를 backbone으로 샘플의 raw data를 어셈블리하고, 어셈블리된 contig들과 HLA DB간의 BLAST를 통해 가장 가까운 HLA allele를 예측한다.

2. Prediction of epitope prediction(항원결정부위 예측) #

pVAC-Seq프로그램에서 가장 큰 강점은 HLA class I molecule의 변이에 대한 친화도를 계산함으로써 항원결정부위를 예측한다는 점이다. HLA class I molecule에 바인딩하는 펩티드의 친화도를 예측하기 위해서, 현재 프로그램에서는 NetMHC v.3.4를 제공한다. 참고 논문을 통해 확인한 결과 prediction algorithm을 이용하는 데에 NetMHC 보다 NetMHCcons이 예측 결과가 더욱 정확하므로 NetMHCcons를 사용하기를 추천한다.(참고논문 : NetMHCcons: a consensus method for the major histocompatibility complex class I predictions)

앞선 첫 번째 단계에서 호출된 변이를 기준으로 8~10bp의 flank region을 시퀀스 파일로 읽어들여서 암환자의 HLA class I의 haplotype의 친밀도를 계산한다. 왜냐하면 HLA class I을 나타내는 antigenic 항원결정부위(epitopes)의 길이는 매우 다양하지만, 일반적으로 8~11bp의 amino acid를 가지고 있기 때문이다.

3. Integration expression and coverage information(발현 데이터와의 결합) #

또한 pVAC-seq프로그램은 RNA 변이를 통해 발현된 예측 신생항원(neoantigens)에 대한 정확성을 향상하기 위해 정상과 종양 조직 데이터세트에 대한 coverage, depth를 이용한 분석 및 필터링 과정을 수행한다.

이를 위하여 RNA-Seq 데이터로부터 유전자 발현 데이터인 FPKM(Fragments per kilobase of exon per million reads mapped)을 이용한다. 이 논문은 Tuxedo protocol의 TopHat(v.2.0.8)과 Cufflink(v.2.0.2)를 사용하여 계산하였다.

unique한 백신 후보를 선택하기 위해서는 best 'quality'를 가진 변이를 타겟으로 하는 것이 가장 중요한데, 시퀀싱 depth 뿐만 아니라 VAF(variant allele)을 포함한 리드의 비율이 변이의 우선순위를 정하거나 필터링하는 기준으로 사용된다. 이러한 정보를 추가하기 위해서 bam-readcount라는 프로그램을 사용하였다.

이렇게 생성한 gene, isoform에 대한 FPKM 값과 bam-readcount를 이용한 depth 값을 additional_input_file_list.yaml 파일에 위치 정보를 입력해준다면 pVAC-seq프로그램이 자동으로 expression 값과 coverage information을 이용하여 계산한다.

4. Filtering neoepitope candidate(후보가 되는 항원결정부위 필터링) #

항체 펩티드를 생산하는 것은 백신의 개발과 신생 항원을 선택함에 있어 효율적인 면에서 매우 중요한 과정이다. 이에 예측된 binding 펩티드 리스트를 다음과 같은 두 가지 방법으로 필터링하여 조금 더 정확한 세트를 선택하게 된다.

1. Depth-based filtering
정상조직에서의 Coverage >= 5X, VAF <= 2%
종양조직에서의 Coverage >= 10X, VAF >= 40%

2. Expressed-based filtering
FPKM > 1 (to eliminate noise)

output #

pVAC-Seq의 수행이 완료되면 다음과 같은 결과물을 얻을 수 있다.

1. epitope_output.combined.parsed.tsv
: 1차적으로 pVAC-seq프로그램에서 출력하는 신생항원 후보에 대한 변이 목록

2. epitope_output.filtered.binding.tsv
: 위의 신생항원 후보에 대한 변이 목록 중 binding_filter 기능을 통해 얻은 변이 목록

3. epitope_output.final.tsv
: 최종적으로, expression data까지 고려한 coverage_filter 기능을 통해 얻은 신생항원 후보에 대한 변이 목록

참조 #

정밀의료+NGS 통한 '맞춤형 암백신', 어디까지 왔나?
http://www.biospectator.com/view/news_view.php?varAtcId=2500

Double or nothing on cancer immunotherapy
http://www.nature.com/nbt/journal/v31/n1/full/nbt.2471.html

pVAC-seq
http://pvac-seq.readthedocs.io/en/latest/index.html
https://genomemedicine.biomedcentral.com/articles/10.1186/s13073-016-0264-5

Other Posts #

0.0.1_20140628_0