NGS 활용 임상유전체 분석 - Somatic cancer (책 발간용 글 편집 및 수정)
#
Find similar titles
- (rev. 3)
- syp
Structured data
- Category
- Analysis
Somatic mutation #
Cancer는 somatic cancer와 hereditary cancer로 나뉜다.
먼저, 태어날 때부터 부모의 유전적인 소인을 물려받아 발생하는 유전성 암(Hereditary cancer) 질환이 있다. 원인 변이로써 실제 암의 발병에 미치는 영향은 약하지만, 부모가 물려주는 유전적인 경향(Familial)을 통틀어 생식세포 변이(Germline mutation)라 하는데, 이런 경우는 전체 암 질환이 일어나는 원인의 15~30%밖에 설명을 못한다.
더 많은 경우가 태어난 후 여러 이유로 인해 암이 자연 발생적으로(Sporadic) 만들어진다. 이 경우(Somatic cancer) 원인 변이는 특정 장기나 조직에만 국한된 체세포 분열 과정에서의 변이라는 뜻에서 체세포 변이 (Somatic mutation)이라 한다.
체세포 변이에는 단일 염기 변이(single nucleotide variation), 구조변이(structural variation), 염색체 이수성(aneuploidy) 등 여러 형태의 변이가 존재한다. 특정 암 유형은 화학약물, 자외선, 흡연 등에 노출돼 특정 돌연변이와 복원 메커니즘이 고장 나서 발생하는 체세포 단일 염기 변이에 의해 분류된다. 큰 범위의 구조변이는 염색체 제거(deletion), 삽입(insertion), 반전(inversion), 순차중복(tandem duplication), 전좌(translocation), 복합적 재배열(complex rearrangement) 등으로 인해 암에서 정상 유전자의 기능에 영향을 끼친다. 암이 발생하는 과정에서 특정 유전자의 변이는 한 번에 오지 않고 여러 단계에 걸쳐서 온다. 아래 그림처럼 대장암이 일어나는 단계는 정상세포에서부터 여러 유전자의 변이들이 생겨 점막의 과증식 및 용종(adenoma)이 생기고, 다시 주요 암 억제 유전자의 변이를 거쳐서 최종적으로 대장암이 발병한다. 각 암종마다 주요 유전자가 관여하는데 이들 유전자의 변이만 알면 암의 진행단계를 알 수 있다. 이뿐만 아니라, 같은 장기의 암이어도 유전자의 변이가 모두 다르므로(heterogeneity) 이 다른 유전적인 차이에 따라 암의 예후, 치료, 재발 등을 다르게 적용할 수 있다. 이것이 맞춤의학의 시작이다.
Somatic mutation 분석 #
일반적으로 암 분석을 한다는 것 즉 somatic mutation을 찾는것은 variant calling의 하나로 NGS가 clinical로 가기 위한 기본적인 단계라고도 할 수 있다. 전통적인 방법은 샘플 (normal/disease 또는 normal/cancer 또는 control/mixed disease sample이라고 각각 부른다.)에 대해서 각각 variant를 calling하고 두 샘플에서의 variants의 차이를 비교하는 것이다. 이는 단순한 비교를 통한 분석으로 최근에는 disease-control의 두 샘플을간의 joint probabilities를 계산을 통해서 true somatics mutation을 분리한다. 이와 더불어 de novo mutations을 찾기 위한 다양한 연구들이 진행되었다. 위에서 언급한 단순 비교를 지원하는 open source 툴로는 VarScan이나 SomaticSniper가 있으며, joint probabilities를 지원하는 툴로는 VarScan2나 JointSNVMix가 있다. GUI의 commercial 툴로는 QIAGEN의 CLC Genomics Workbench나 SoftGenetics사의 NextGENe 등이 있다.
Cancer 분석에 있어서 다양한 시도들이 이루어지고는 있는 상황에서 somatic muntation 분석에서의 가장 큰 걸림돌은 disease sample이 지니고 있는 impurity와 heterogeneity인한 분석 결과의 정확성 문제이다. 이러한 문제를 해결하기 위한 방법으로 나온것 중 하나가 바로 샘플의 contamination level을 계산하고 이를 분석에 적용하기도 한다.
NGS workflow #
전통적으로 Broad institute의 GATK best-practice에서 이 부분을 수행하는 것이 결과에 좋은 영향을 준다고 하여 무조건적으로 수행했다. alignment와 variant calling 단계에서는 cpu/mem 부분에서 bottleneck이지만, align post-process (base quality score recalibration, realignment around indels)과 variant post-process 단계에서는 disk의 IO가 bottleneck으로 작용하는데, 엄청난 IO와 분석 시간의 증가라는 cost적인 측면을 감내하면서 수행하였다.
그런데 간단히 deduplication만 수행한 minimal BAM preparation과 align post-process 단계를 거친것과 결과는 어떨까? 분석 결과는 놀랍게도 deduplication만 수행한 BAM의 경우가 오히려 좋은 성능을 보인다는 것이다. recalibration과 realignment 과정없이 HaplotypeCaller와 FreeBayes에서 오히려 좋은 성능을 보인다.
그래서 GATK 는 genome 데이터에 대해서 너무 많은 가공을 한다는 것을 분석 시 고려해야 한다. 가령 위에서 언급한 alignment post-processing 등과 같이 말이다.