Skip to content

Bio big-data #

Find similar titles

2회 업데이트 됨.

Edit

Structured data

Category
Big Data

국제적으로 진행되고 있는 Bio big data projects에 대한 정리이다.

1000 Genome Project #

개요 #

  • http://www.1000genomes.org/
  • 2008년 1월 시작된 국제 컨소시엄. 미국, 영국, 일본, 케냐, 나이지리아, 페루 등의 연구진 참여
  • 사람 개개인의 유전체 변이에 대한 상세한 카탈로그 작성을 목표.
  • 연구집단내의 유전적 변이 확률이 1% 이상인 것을 대상.
  • SNPs, 염색체 구조 변이, haplotype context 등
  • 처음 목표는 1000명 대상이었으나 2012년에 목표 완료 후 25개 집단, 2500명을 대상으로 한 프로젝트로 업그레이드되어 진행중

Pilot Project #

Pilot Purpose Coverage Strategy Status
1 - low coverage Assess strategy of sharing data across samples 2-4X Whole-genome sequencing of 180 samples Sequencing completed October 2008
2 - trios Assess coverage and platforms and centers 20-60X Whole-genome sequencing of 2 mother-father-adult child trios Sequencing completed October 2008
3 - gene regions Assess methods for gene-region-capture 50X 1000 gene regions in 900 samples Sequencing completed June 2009
  • Nature article (2010) : 링크

Main Project #

  • 4X coverage로 NGS 시퀀싱 수행
  • 첫번째 샘플 세트: 13개 집단, 1157명
  • 두번째 샘플 세트: 7개 집단, 633명
  • 세번째 샘플 세트: 700명
  • Nature article (2012): 첫번째 샘플 집단 (1092명)에 대한 분석 결과 논문, 링크

Genomics England: the 100,000 Genomes Project #

개요 #

  • http://www.genomicsengland.co.uk/
  • 2017년까지 영국인 10만명에 대한 유전체 분석을 목표로 함.
  • Departement of Health, National Health Service에서 주관
  • 희귀 질환, 암, 기타 감염 질병에 중점.
  • 4가지 중점 목표 . 환자에게 혜택 부여 . 사회적 동의를 기반으로 한 윤리적이고 투명한 프로그램 개발 . 새로운 과학적 발견과 치료법의 통찰 . 영국의 제놈 인더스트리 발전을 촉진
  • Ethics Working group, Data Working group, Science Working group

ICGC International Cancer Genome Consortium #

개요 #

  • https://icgc.org/
  • 50여개의 tumor type (혹은 subtype)에 대해 genomic, transcriptomic and epigenomic changes 를 분석하여 통합적 이해를 목적으로 함.
  • 각 tumor type당 500 명의 tumor 샘플과 500명의 normal 샘플을 비교
  • 관련 소개 논문: http://www.nature.com/nature/journal/v464/n7291/full/nature08987.html
  • 아시아, 호주, 유럽, 북미, 남미의 총 74개 프로젝트팀의 협업으로 진행
  • 한국은 혈액암(blood cancer), 유방암(breast cancer), 폐암(lung cancer)에 참여

The ENCODE Project (ENCyclopedia Of DNA Elements) #

개요 #

  • http://www.genome.gov/encode/
  • 2003년 9월에 시작된 전세계 연구그룹들의 컨소시엄, US National Human Genome Research Institute가 주관
  • 전세계적으로 32개 연구실, 440명의 과학자들이 참여 (Pilot project가 끝나는 시점의 통계).
  • Human genome project의 follow-up study
  • Human genome의 모든 기능 요소 (all functional elements)를 동정하는 것을 목표
  • 3개 phase로 진행됨: pilot phase, technology development phase, production phase

Pilot Phase #

  • Human genome의 1% 해당하는 30Mb 정도 영역을 대상으로 연구 진행
  • Pilot Phase 결과: 2007년 Nature 논문, Genome Research의 special issue로 발간됨
  • Nature (2007): 링크
  • Genome Research (2007) : 링크

Phase II #

  • ChIP-seq, DNaseI hypersensitivity, RNA-seq, and DNA-methylation
  • 1,640 data sets, 147 different cell types
  • 결과는 2012년 Nature 6편, Genome Biology 6편, Genome Research special issue에 18편 등 총 30편의 논문으로 출간됨.
  • Nature (2012) : 링크

유사 프로젝트 #

The GENCODE Project #

  • http://www.gencodegenes.org/
  • Encyclopædia of genes and gene variants
  • Genome Research (2012) : 링크
  • RNASeq genome annotation assessment project (RGASP)에서 발표한 2편의 참고할 만한 논문
  • Assessment of transcript reconstruction methods for RNA-seq. Nature Methods (2013) : 링크
  • Systematic evaluation of spliced alignment programs for RNA-seq data. Nature methods (2013) : 링크

Roadmap Epigeneomics project #

International Human Epigenome (HEP) Consortium #

  • http://www.ihec-epigenomes.org/
  • 정상과 질병 cell type들에 대한 고해상도 reference human epigenome map을 무상으로 연구 커뮤니티에 제공하는 것을 목표로 하고 있는 국제 컨소시엄.
  • 참여 그룹
  • Canadian Institutes for Health Research, CIHR (Canada)
  • European Commission (EU)
  • European Institute of Oncology, FIRC Institute of Molecular Oncology Foundation, Italian Institute of Technology, Center for Genomic Science, IEO, IFOM, IIT (Italy)
  • Federal Ministry of Education and Research (BMBF), Project Management Agency within the German Aerospace Center, (PT-DLR)
  • Japan Science and Technology Agency, JST (Japan)
  • National Institute of Health, Korea (South Korea)
  • NIH Roadmap Epigenomics Program, NIH (USA)

modENCODE Project #

  • http://www.modencode.org/
  • Drosophila melanogaster and Caenorhabditis elegans 등 선별된 몇몇 모델 종에 대한 ENCODE Project

Human Microbiome Project #

개요 #

  • http://www.gencodegenes.org/
  • 2007년부터 2015년까지 계획
  • 사람안에 공생/기생하는 모든 미생물에 대한 동정
  • 인간의 건강, 질병에 미치는 미생물의 영향에 대한 연구 수행

Pilot phase #

  • FY2007-2012
  • 신체의 주요 점막표면 (비강, 구강, 피부, 위장기관, 비뇨생식로 등)에 서식하는 미생물 군집의 다양성과 조성을 규명.
  • 이들 군집의 유전적, 대사적 잠재 영향성을 평가.

Current phase #

  • FY2013-2015
  • 마이크로비옴 (Microbiome) 관련 질병의 코호트 연구분석을 통해 마이크로비옴과 숙주 모두의 통합된 생물학적 특성 데이터셋을 제작하는 것에 초점을 맞춤.

Genome 10K project #

개요 #

  • https://genome10k.soe.ucsc.edu/
  • 10,000종의 척추동물 유전체를 분석하여 유전체 동물원 (Genomic Zoo)을 구성하는 것을 목표로 함.
  • 모든 척추동물 속 (Genus)에 대해 한 종 정도씩 분석.
  • J. Heredity (2009) Inaugural publication : 링크

Million Plant and Animal Genomes Project-BGI #

개요 #

Animal Genomes #

Plant Genomes #

Million Human Genomes Project-BGI #

개요 #

  • http://www.genomics.cn/en/navigation/show_navigation?nid=5658
  • 2011년 11월에 시작. 백만명을 대상으로 한 전체 유전체 해독을 목표.
  • 5개 핵심 연구 파트: Ancient genomes, Population genomes, Medical genomes, Cell genomes, personal genomes.
  • 특정 집단의 레퍼런스 표준과 연구 기반을 확립하고 질병 메카니즘을 이해하기 위해 유전적 변이와 질병 형질간의 연관 관계를 분석.
  • 혁신적인 임상 진단, 치료에의 적용과 궁극적으로는 개인 맞춤 의학의 발전, 그리고 인간 건강의 향상을 추구.

Million Microecosystem Genomes Project-BGI #

개요 #

주요 연구 분야 #

  • Pathogenic bacteria
  • Industrial and agricultural microbes
  • Environmental metagenome
  • Host associated metagenome

Fish-T1K (1,000 Fish Transcriptome Project) #

개요 #

  • http://fisht1k.org/
  • 중국 National GeneBank와 BGI-Shenzhen에서 2013년 11월 공식 론칭.
  • 1,000 종의 다양한 어류에 대해 RNA-seq 기술로 데이터 생산이 목표

중요성 #

  • 지구상에 32,000 종 이상의 어류가 있을 것으로 예상.
  • 지느러미 물고기는 척추동물 생물 다양성의 50%를 차지하며 형태, 생리, 생태 측면에서 엄청난 다양성을 보임.
  • 그럼에도 불구하고 현재까지 단지 13종의 어류 유전체가 보고되었음 (전사체 데이터는 127종, SRA of NCBI, as on March 2014)
  • 이들 대부분은 3개 목 (Order), the Perciformes, Cypriniformes and Cyprinodontiformes, 에 국한되어있음.

The i5K Initiative (5,000 Insect Genome Project) #

개요 #

  • http://www.arthropodgenomes.org/wiki/i5K
  • 2011년도에 시작된 국제 프로젝트 (180개 기관, 616 연구자들이 참여)
  • 5년내에 5000종의 곤충에 대한 유전체 시퀀싱을 목표로 함.
  • $15 Million의 예산 (5M for sequencing, 5M for bioinformatics and annotation pipeline work, and $5M for systems biology and mining the data)
  • 농업, 음식물 안전성, 의약, 에너지 생산등에 중요한 종을 선발.
  • 2014년 6월 25일 현재 총 807종이 제안되었음.
  • Hexapoda 702
  • Chelicerata 64
  • Crustacea 20
  • Myriapoda 6
  • 현재 120종에 대한 genome 프로젝트가 시작되었고 58종에 대한 분석이 완료되었음.

GIGA (Global Invertebrate Genomics Alliance) #

개요 #

  • http://giga.nova.edu/
  • Nova Southeastern University Oceanographic Center, Center of Excellence in Coral Reef Ecosystem Sciences (COE-CRES) 주관, 2013년 3월 시작.
  • 5,000 - 10,000 종의 선별된 무척추 동물의 유전체 혹은 전사체 규명을 목표.
  • 곤충 제외, aquatic and marine taxa에 중점을 둠.
  • Genome 10K 프로젝트에 영감을 받아 시작
  • 무척추동물은 전체 동물 종 다양성의 70% 이상을 차지

Terragenome #

개요 #

  • http://www.terragenome.org/
  • 2011년에 정식 론칭한 International Soil Metagenome Sequencing Consortium
  • US National Science Foundation로부터 연구기금 조달

분석툴 #

  • RDP (Ribosomal Database Project): 박테리아/고세균의 16S rRNA 서열 정보와 온라인 서비스 제공. 링크

  • QIIME (Quantitative Insights Into Microbial Ecology): 오픈소스 소프트웨어 패키지. 다양한 플랫폼에서 생산된 SSU rRNA와 같은 high-throughput amplicon sequencing data의 비교와 분석을 위한 오픈소스 소프트웨어 패키지. Shotgun metagenomic data에 대한 지원도 가능. 링크

  • Greengenes: 웹 어플리케이션. 16S rRNA 서열 및 alignment 정보 제공. browsing, blasting, probing, downloading 가능. 링크

  • MG-RAST: MG-RAST (the Metagenomics RAST) 서버는 메타지놈에 대한 자동화된 분석 플랫폼으로 서열 데이터를 기준으로 미생물 군집에 대한 정량적 분석 결과를 제공한다. 이 웹 서버는 데이터의 업로드 (upto 10Gb), 품질 평가, 자동화된 색인기능 및 분석 수행이 가능하다. 링크

  • IMG/M (Integrated Microbial Genomes/Microbiome): Integrated Microbial Genomes (IMG) 시스템에 저장된 표준 isolate genome의 context와의 비교를 통해 미생물 메타지놈의 서열 정보를 바탕으로 기능적 가능성 (functional capability)을 분석하여 그 결과를 제공한다. 링크

Incoming Links #

Related Articles #

Related Bioinformaticses #

Suggested Pages #

0.0.1_20230725_7_v68