Skip to content

Uploadable NGS database #
Find similar titles

생산된 NGS Data를 deposit할 수 있는 Database #

(1) SRA & ENA #

  • SRA는 2007년에 NCBI가 Human Microbiome Project와 1000 Genomes Project를 포함한 RNA-seq과 ChIP-seq으로 나온 데이터를 저장할 공간을 제공하기 위해 만들었으며, 현재는 NCBI, EBI, DDBJ가 서로 협력하는 INSDC의 일부분이 되었다. 이처럼 SRA는 DNA 시퀑싱 데이터를 저장할 수 있는 Bioninformatics public repository로, 주로 BAM 포맷을 선호하며, 1,000bp 이하의 read 데이터만 저장 가능하다. 2011년에 측정한 SRA 데이터베이스의 DNA 데이터 용량은 100 테라바이트 였으며, SRA의 예전 이름은 Short Read Archive였으나 현재는 Sequence Read Archive이다. NCBI, EBI, DDBJ에 모두 이용할 수 있는 NCBI SRA Toolkit으로 SRA의 데이터를 이용할 수 있고, 데이터를 fastq와 같은 포맷으로도 변형할 수 있다.
  • ENA는 INSDC를 구성하는 것 중 하나이고, EBI(European Bioinformatics Institute)가 주로 유지하고 데이터를 보관한다. SRA와 유사하며, 주석이 달린 DNA, RNA 서열을 자유롭게 이용하고 저장할 수 있는 저장소이다.
  • 참고로, SRA, ENA, EBI, DDBJ 데이터는 거의 서로 호환되지 않는다.

(2) dbGaP & EGA(European Genome-phenome Archive) #

  • dbGaP은 미국 NIH가 지원하는 저장소로 인간 내 유전형(genotype)과 표현형(phenotype) 간의 상호작용에 대해 조사해왔던 연구결과들과 데이터를 저장 및 배포하기 위해 개발했다. 여기서 상호작용은 전장 유전체 연구(genome-wide association study), 의료 시퀀싱, 분자 진단 분석 및 유전체형과 비-임상 형질(non-clinical trait)간의 연관 분석들을 포함한다. 일반공개 데이터와 제한적 접근데이터로 나뉘어 지며, 연구정보, 표현형 정보, 유전형-유현형 분석정보와 같은 민감하지 않은 데이터는 사전 허가없이 dbGaP 웹 브라우저에서 조회하거나 다운로드가 가능하다. 제한적 접근 데이터는 허가 받은 사용자만 이용가능하며 계통수나, 식별이 안 된 표현형과 유전자형의 정보 등이 있다.
  • EGA는 European Genome-phenome Archive약자로, 모든 형태의 시퀀스 데이터와 집단분석, family study, case-control 연구 등을 저장하기 위한 곳이며, 추가적으로 re-시퀀싱 방법으로 genotyping 한 것과 SNP, CNV genotype을 추가할 예정이다.

참고자료 https://www.ncbi.nlm.nih.gov/sra https://www.ebi.ac.uk/ena/browser/about https://www.ncbi.nlm.nih.gov/gap/

0.0.1_20210630_7_v33