Skip to content

Population DB - GnomAD #
Find similar titles

Structured data

Category
Database

개요 #

2015년 유엔이 발표한 세계인구보고서에 따르면 전 세계 인구는 약 73억명이다. 현재의 의학 기술은 모든 인간을 하나의 종으로 판단하여 동일한 조건으로 치료를 하였다. 그러나 최근 들어 NGS 시장이 크게 성장하면서 정밀의학이 발전하게 되었다. 특히 유전체 분석과 암의 조기진단과 치료제 개발을 위한 바이오마커를 통하여 인종 별로 또는 개인 별로 구별하는 맞춤형 의학을 제공한다. 이를 통하여 의료비용을 줄일 수 있을 뿐만 아니라 개인에게 최적화된 치료약을 제시하여 부작용을 줄이고, 장기적으로 더 건강한 삶을 제공해 줄 것이다.

Image

또한, 인종 별 바이오마커 시장의 증가로 더욱 맞춤형 의학을 실현할 수 있는 날이 다가오고 있다. 이에 Population DB에 속하는 GnomAD와 1000 genome에 대해서 알아보자.

Image

GnomAD #

GnomAD는 The Genome Aggregation Database의 약자로써, 다양한 대규모의 시퀀싱 프로젝트로부터 Exome과 Genome 시퀀싱 데이터를 통합하여 연구자들에게 제공하고 있다. 첫 번째 release는 Exome Aggregation Consortium (ExAC)로 알려져 있다. 이 웹 사이트에는 개별적인 사람들의 123,135개의 엑솜과 15,496개의 게놈 정보를 보유하고 있으며, 현재까지 지구상에서 가장 많은 인간 게놈을 쌓은 DB이다. gnomAD data set은 공개적으로 운영하고 있으며, 자유롭게 데이터를 다운로드와 검색을 할 수도 있다. 그러나 대규모 분석을 시작하기 전에는 gnomAD 컨소시엄에서 진행 중인 작업과 중복이 되는지 확인하기 위해 연락을 해야 한다.

Image

Image

Variant Dataset (VDS) format - download #

2017년 10월 3일자로 gnomAD 2.0.2 버전을 운영하고 있으며, Variant Dataset (VDS) 형식으로 gnomAD 데이터를 다운로드 할 수도 있다.

  1. Google Cloud SDK를 설치한다.
  2. Google Colud Storage gsutil 도구를 사용하여 파티션을 자신의 스토리지 bucket 또는 로컬 하드 드라이브에 복사한다.

    mkdir gnomad_data
    
  3. VDS 파일을 다운로드하려면 아래와 같이 진행한다. (참고 : 상 염색체는 성 염색체와 결합되어 있다.)

    gsutil -m cp -r gs://gnomad-public/release/2.0.2/vds/exomes/gnomad.exomes.r2.0.2.sites.vds gnomad_data # 16 GB
      gsutil -m cp -r gs://gnomad-public/release/2.0.2/vds/exomes/gnomad.exomes.r2.0.2.sites.split.vds gnomad_data
    gsutil -m cp -r gs://gnomad-public/release/2.0.2/vds/genomes/gnomad.genomes.r2.0.2.sites.vds gnomad_data # 108 GB
    
  4. original ExAC dataset의 다운로드는 아래와 같이 진행한다.

    gsutil -m cp -r gs://gnomad-public/legacy/exac_browser/ExAC.r1.sites.vds gnomad_data # 6.7 GB
    

VCF and coverage files - download #

  1. Google Cloud SDK를 설치한다(Google 계정이 필요함).
  2. Google Colud Storage gsutil 도구를 사용하여 파티션을 자신의 스토리지 bucket 또는 로컬 하드 드라이브에 복사한다.

    gsutil ls gs://gnomad-public/release/2.0.2
    gsutil ls gs://gnomad-public/release/2.0.2/vcf/genomes
    
  3. File 크기를 보는 방법:

    gsutil du -h -s gs://gnomad-public/release/2.0.2/vcf/genomes # size of whole folder
    gsutil du -h gs://gnomad-public/release/2.0.2/vcf/genomes # sizes of individual files
    
  4. 데이터를 저장할 위치에서 다운로드를 진행한다.

    mkdir gnomad_data
    
  5. 모든 vcf 파일들을 다운로드하기 위해 아래와 같이 진행한다.

    gsutil -m cp -r gs://gnomad-public/release/2.0.2/vcf gnomad_data # 102 GB
    
  6. 또는 Specific chromosomes:

    # e.g. chromosome 1, 7 GB
    gsutil -m cp -r gs://gnomad-public/release/2.0.2/vcf/genomes/gnomad.genomes.r2.0.2.sites.chr1.vcf.bgz gnomad_data
    

Build 37 #

Exome Data와 Genome Data를 직접 다운로드 할 수 있다.

Build 38 liftover (beta) #

Exome Data와 Genome Data를 직접 다운로드 할 수 있다.

Reference #

  1. [Bio & Tech]'나만을 위한'치료법...정밀의학 선점 경쟁 뜨겁다
  2. "맞춤의학 시대 대비...한국도 바이오마커 개발 나서야"
  3. gnomAD browser beta
0.0.1_20210630_7_v33