Quantity quality tradeoff
#
Find similar titles
- 최초 작성자
- 최근 업데이트
Structured data
- Category
- Analysis
Accurate and comprehensive sequencing of personal genomes #
Introduction #
Whole-genome sequencing (WGS)는 single-nucleotide variants (SNV), indel등의 국소적인 변화와 염색체 재배열 등의 대규모 변화를 분석할 수 있는 도구이다. WGS를 이용한 개인 유전체의 효율적인 분석 위해 양/질 간의 트레이드오프가 필요한데 아직까지는 이에 대한 기준이 제시되지 않고 있는 실정이며 또한 어느 정도의 데이터 양이 필요한 지 여부도 정확하게 검토되지 않았다. 이를 분석하기 위해 남성 혈액 샘플을 두 종류의 플랫폼 (Ilumina GAIIx, HiSeq 2000)을 이용하여 시퀀싱하여 359 Gb (=평균 126 시퀀스 뎁스)의 데이터를 확보한 후 1) 데이터의 양 2) 유전체의 특정 부분 3) SNV의 양, 간의 관계를 분석하였다.
WGS 데이터 요약 #
Data set | Reads PF (X10^9) | Reads PF + Q20 filter (X10^9) | Average sequenced depth | Aligned reads (all) (X10^9) | Aligned reads (no dup.) (X10^9) | Average mapped depth |
---|---|---|---|---|---|---|
HiSeq FC-A | 1.22 | 1.16 | 40.8X | 1.09 | 0.94 | 32.7X |
HiSeq Fc-B | 1.44 | 1.36 | 47.6X | 1.26 | 1.15 | 40.4X |
GAIIx(tow flowcells ) | 1.18 | 1.07 | 37.4X | 1.02 | 0.98 | 34.2X |
HiSeq FC-AB + GAIIx | 3.84 | 3.59 | 125.8X | 3.37 | 2.91 | 102X |
1. 질문-1. 유전체에 대한 리드 데이터가 고르게 분포하는가? --> NO
• 상기 그림은 유전체와 coding 엑솜의 커버리지와 해당 커버리지에 소요되는 리드 뎁스 간의 관계를 나타낸다.
• 이론적으로는 리드데이터는 유전체의 모든 영역에서 고르게 분포해야 하지만 Lander-Waterman 통계에 의하면 유전체에 대한 커버리지는 포아송 분포를 따르는 것으로 나타났다. 시퀀싱 과정의 실험적 바이어스 (예, 샘플을 다루는 과정이나 라이브러리 구축 과정)에 발생하기도 하며 유전체의 GC content 상이성에 따른 증폭 바이어스에 의해 이러한 비균질 분포가 나타나게 된다.
• Hg18 build 기준에서 GAIIx, HiSeq FC-A, HiSeq FC-B는 각각 88.82%, 90.99%, 93.10%의 유전체 포지션 정보를 얻을 수 있었다.
2. 질문-2. 정확한 유전자 돌연변이 도출을 위한 분석 조건을 무엇인가? --> MapQ >=30
• 이에 대한 답을 얻기 위해 동일 샘플에 대해 두 개의 유전체 데이터 (50X )를 만들어서 이후 분석을 진행하였다
• 동일한 샘플임에도 불구하고 Table 2에서 보는 바와 같이 서로 다른 variant calling 결과 즉 artifact가 존재함을 발견하였으며 이를 줄이기 위해 MapQ >=30 등의 조건을 부가하였을 때 artifact의 수가 현저하게 줄어드는 것을 발현하였다 (그림2)
3. 질문-3. 플랫폼에 의한 전반적인 에러는 어느 정도로 발생하는가? --> 1/2389
• 이를 분석하기 위해 동일 샘플을 Human1M-Duo BeadChip을 이용한 Illumina Infinium HD assay 로 genotyping을 수행한 후 50X 데이터와 비교하였다
• 그 결과, 99.958%의 variant call이 동일하였으며 1/2389 꼴로 artifact가 존재함을 발견하였다
4. 지금까지의 결과 요약
• 리드 뎁스를 20X 에서 50X 로 증가시키는 만큼 calling되는 양이 현저하게 늘어나며 필터를 적용하는 경우 (파란 곡선)에는 calling이 양이 필터를 적용하지 않는 경우 (빨간 곡선)에 비해 줄어들게 된다 (그림 3A)
• 하지만 필터를 적용하는 경우에는 동일 샘플에 대한 플랫폼이나 독립 실험 등에 따른 불일치률 역시 현저하게 줄어드는 것을 알 수 있다 (그림 3B)
5. 질문-4. 일정 수준의 유전체 분석을 위해 필요한 데이터 양은 얼마인가? --> 50X
• 이를 위해 5X ~ 100X 의 평균 뎁스를 가지는 유전체 데이터를 생성한 후 염색체와 CDS 영역에 대한 각 데이터의 커버리지를 분석한 결과는 아래 그림과 같다.
• 30X 까지는 리드 뎁스가 증가와 염색체 및 CDS 영역에 대한 calling이 현저하게 증가하여 약89.7%에 이르지만 30X 이후에는 일정 수준에 수렴되는 것을 알 수가 있다.
• SNV calling은 25X 까지는 현저하게 증가하지만 그 이후에는 일정 수준에 수렴되었으며 50X 에서 발견되 3,319,872개의 variant는 100X 의 전체 variant의 94.89%에 해당되었다. 이러한 결과는 BeadChip을 이용한 분석과 최소 99.94% 동일하였다.
• 즉, 50x 유전체 데이터를 이용하면 전체 염색체의 >94% 또는 coding exome의 >80%에 대한 신뢰성 있는 genotype call 결과를 얻을 수 있을 것이다. Table 1의 리드 퀄리티를 고려한다면 (염색체에 맵핑되는 리드가 평균 85%) 170Gb (=60X )의 데이터를 생산하면 될 것이다.
• TruSeq v3의 경우 염색체와 coding exome 모두 35X 정도에서 수렴되는 더 나은 분석 결과를 얻을 수 있었다.