Skip to content

Assemblathon2 #
Find similar titles

Structured data

Category
Analysis

Assemblathon 2: evaluating de novo methods of genome assembly in three vertebrate species #

Giga science (2013) 2:10

1.Background #

• NGS 기술의 발달로 인해 이전에 비해 유전체 시퀀싱이 더 빠르고 쉽고 정확하게 이루어지고 있다.

• NGS의 다양한 플랫폼으로부터 각기 다른 리드 길이, 개수, 에러 프로파일이 생성되는데 이들을 혼합하여 유전체를 어셈블하는 것이 하나의 이슈가 되고 있다.

• NGS데이터로부터 유전체 어셈블링을 수행하기 위한 De Brujin방법을 응용한 다양한 프로그램 (EULER, ALLPATHS, Velvet, ABySS등)이 존재한다.

• 최근에는 다양한 어셈블러들을 비교 평가하기 위한 시도들이 진행되고 있다.

• Assemeblathon2는 이전에 시뮬레이션 기반으로 시행되었던 Assembathon과는 다르게 실제 시퀀싱 데이터를 기반으로 다양한 프로그램을 비교 평가하기 위해 개최된다.

• 어셈블 대상 종은 현재까지 유전체가 알려지지 않은Budgerigar (Melopsittacus undulates), Lake Malawi cichlid (Maylandia zebra), boa constrictor (Boa constrictor constrictor), 간단히, 새, 물고기, 뱀에 해당된다.

2. 참가팀 #

Team name Team identifier Bird Fish Snake Sequence data used for bird assembly Institutional affiliations Principal assembly software used
ABL ABL 1 0 0 4 + I Wayne State University HyDA
ABySS ABYSS 0 1 1 Genome Sciences Centre, British Columbia Cancer Agency ABySS and Anchor
Allpaths ALLP 1 1 0 I Broad Institute ALLPATHS-LG
BCM-HGSC BCM 2 1 1 4 + I + P1 Baylor College of Medicine Human Genome Sequencing Center SeqPrep, KmerFreq, Quake, BWA, Newbler, ALLPATHS-LG, Atlas-Link, Atlas-GapFill, Phrap, CrossMatch, Velvet, BLAST, and BLASR
CBCB CBCB 1 0 0 4 + I + P University of Maryland, National Biodefense Analysis and Countermeasures Center Celera assembler and PacBio Corrected Reads (PBcR)
CoBiG2 COBIG 1 0 0 4 University of Lisbon 4Pipe4 pipeline, Seqclean, Mira, Bambus2
CRACS CRACS 0 0 1 Institute for Systems and Computer Engineering of Porto TEC, European Bioinformatics Institute ABySS, SSPACE, Bowtie, and FASTX
CSHL CSHL 0 3 0 Cold Spring Harbor Laboratory, Yale University, University of Notre Dame Metassembler, ALLPATHS, SOAPdenovo
CTD CTD 0 3 0 National Research University of Information Technologies, Mechanics, and Optics Unspecified
Curtain CURT 0 0 1 European Bioinformatics Institute SOAPdenovo, fastx_toolkit, bwa, samtools, velvet, and curtain
GAM GAM 0 0 1 Institute of Applied Genomics, University of Udine, KTH Royal Institute of Technology GAM, CLC and ABySS
IOBUGA IOB 0 2 0 University of Georgia, Institute of Aging Research ALLPATHS-LG and SOAPdenovo
MLK Group MLK 1 0 0 I UC Berkeley ABySS
Meraculous MERAC 1 1 1 I DOE Joint Genome Institute, UC Berkeley meraculous
Newbler-454 NEWB 1 0 0 4 454 Life Sciences Newbler
Phusion PHUS 1 0 1 I Wellcome Trust Sanger Institute Phusion2, SOAPdenovo, SSPACE
PRICE PRICE 0 0 1 UC San Francisco PRICE
Ray RAY 1 1 1 I CHUQ Research Center, Laval University Ray
SGA SGA 1 1 1 I Wellcome Trust Sanger Institute SGA
SOAPdenovo SOAP 3 1 1 I2 BGI-Shenzhen, HKU-BGI SOAPdenovo
Symbiose SYMB 0 1 1 ENS Cachan/IRISA, INRIA, CNRS/Symbiose Monument, SSPACE, SuperScaffolder, and GapCloser

3. 유전체 데이터 #

Species Estimated genome size Illumina Roche 454
Bird (Melopsittacus undulatus) 1.2 Gbp 285x coverage from 14 libraries (mate pair and paired-end) 16x coverage from 3 library types (single end and paired-end)
Fish (Maylandia zebra)* 1.0 Gbp 192x coverage from 8 libraries (mate pair and paired-end) NA
Snake (Boa constrictor constrictor) 1.6 Gbp 125x coverage from 4 libraries (mate pair and paired-end) NA

4. 어셈블리 비교 분석 결과 #

4.1. 어셈블리의 통계적 결과

• 각 어셈블리는 최종 크기, contig 및 scaffold의 길이 간에 큰 차이를 보인다.

• 뱀 유전체 어셈블리의 경우 Phusion와 SGA 팀이 비슷한 scaffold NG50 (3.8Mbp)를 보였으나 contig의 NG50값은 68, 25Kbp로 상이하다.

• 새 유전체의 경우는 MLK와 Meraculous 팀이 비슷한 contig NG50 길이 (36, 32Kbp)를 보였으나 현저하게 다른 scaffold NG50 (114, 7,539Kbp)를 보인다.

Image Image ImageImage

4.2. 핵심 유전자 분석

• Reference genome이 없는 경우 여타 종의 알려진 유전체를 기반으로 종간에 잘 보존되어 있는 핵심 유전자를 분석할 수 있다.

• 이를 위해 458개의 핵심 유전자를 기반으로 분석하는 툴인 CEGMA를 이용하여 분석한 결과, 대부분의 유전자들이 100% 존재하며 정확도도 높은 것을 확인하였다.

Image

4.3. Fosmid 시퀀스 분석

• 어셈블된 46, 24개의 새, 뱀 fosmid 시퀀스와 도출한 유전체의 scaffold와 비교하였을 때 각기 다른 방법으로 도출된 서로 다른 어셈블 결과와 매치되는 것을 알 수 있다.

• 대부분의 fosmid는 많은 어셈블리와 몇몇의 갭을 가지고 매치된다.

• 한 개 이상의 어셈블리와 매치되는 fosmid를 validated fosmid region (VFR)이라고 정의한다.

Image

4.4. VFR에 대한 COMPASS 분석

• COMPASS를 이용하여 VFR에 대한 coverage, validity, multiplicity, parsimony를 분석하였다.

Image

• 새 유전체의 경우 Newbler-454팀이 가장 높은 coverage와 validity와 가장 낮은 parsimony와 multiplicity를 보여 가장 높은 performance를 보인다.

• 뱀 유전체의 경우 Ray 팀이 높은 coverage, validity와 낮은 parsimony와 multiplicity를 보여 1등이었다.

• 대부분의 경우에 coverage와 validity는 새와 뱀 유전체 모두의 경우에 높은 상관관계를 나타냈다.

Image

Image

Image

Image

Image

4.5. Optical map 분석

• Optical Mapping System은 개개의 유전체에 대한 restriction map을 구축하는 것으로 대용량 시퀀싱 프로젝트에 적용되고 있다.

• 세 종의 유전체에 대한 optical map을 구축한 후 optical map와 scaffold가 서로 잘 일치하는 level1, 약간의 문제가 있는 level2, bad join이나 키메라가 존재하는 level3으로 분류한다.

• 새 유전체에 대한 결과, 많은 어셈블리들이 높은level1의 coverage를 보였으며 특히 SGA의 경우 level1의 양도 많을 뿐 아니라 level2, 3의 양 또한 적어 좋은 performance를 보였다.

• 물고기 유전체에 대한 결과, 대부분의 어셈블리에서 level3이 현저하게 많았으며 뱀 유전체는 새와 물고기의 중간 정도 되었다.

Image

Image

Image

4.6. REAPR 분석

REAPR는 각 어셈블리의 각 base에 paired-end read를 다시 맵핑하여 matrix 를 생산함으로 quality를 분석하는 소프트웨어이다.

• Score = Number of error free bases * (broken N50)^2 / (original N50)

• 그 결과, 정확성과 연속성에 trade-off가 존재함을 알 수 있었다.

• 예를 들어, Ray로 뱀 유전체를 분석한 결과는 REAPR로 breaking한 전후의 N50이 132와 123로 큰 변화가 없지만 Curtain의 경우에는 breaking 전후의 N50이 556와 1,149Kbp로 큰 차이를 보인다.

Image

5. 어셈블리 랭킹 #

• 각 유전체로부터 만들어진 각기 다른 어셈블리에 대한 랭킹을 매기기 위해 10종류의 기준을 가지고 어셈블리의 quality를 측정한다.

• 사용된 10종류의 기준은 1) NG50 scaffold length, 2) NG50 contig length, 3) amount of scaffold sequence gene-sized scaffold, 4) CEGMA, 5) Fosmid coverage, 6) Fosmid validity, 7) VFR tag scaffold summary score, 8) Optical map data, level 1 coverage, 9) Optical map data, levels 1+2+3 coverage, 10) REAPR summary score 임

• 10종류의 기준에 대한 Z-score를 각각 구한 뒤 더한 값이 최종 값이다

• 물고기, 새에 대해서는 BCM이 top-ranked 어셈블리였으며 뱀에 대해선 SGA가 top-rank되었다.

Image

Image

Image

6. 디스커션 #

6.1. 어셈블리 퀄리티에 관한 종간, interspecific, intraspecific variation

• 새 유전체에서 가장 긴 contig, scaffold를 도출되었으며 Optical map 분석도 여타 종에 비해 좋은 performance를 보였다.

• 평균적으로는 뱀 유전체에서 대체로 좋은 어셈블리를 획득하였다.

• 유전체 크기는 좋은 퀄리티의 어셈블리와 별반 상관이 없어보였으며 heterozygosity나 repeat content가 퀄리티와 연관성을 갖는 것으로 보인다.

6.2. 서로 다른 플랫폼에서 유래된 새 유전체의 combining 효과

• 새 유전체에 대해서는 Illumina, Roche454, PacBio에서 유래된 세 종류의 유전체가 제공되었으나 4팀만이 서로 다른 플랫폼에서 유래된 유전체를 함께 분석하였다.

• BCM-HGSC팀은 competitive entry에는 PacBio를 넣었으나 evaluation entry에는 PacBio 데이터를 넣지 않았음. PacBio를 이용한 gap-filing 로 인해 contig가 길어지는 효과가 있었지만 전반적인 효과는 낮은 퀄리티를 보였음. 이는 error-rate가 높은 PacBio를 포함된 경우 COMPASS 분석 결과 coverage와 validity가 낮아지는 결과가 야기되기 때문으로 보인다.

• SOAPdenovo 팀은 새 유전체에 대해 2개의 evaluation assembly를 제출하였는데 이는 Illumina만 사용한 경우와 Illumina와 Roche454를 함께 사용한 경우였음. Roche454를 함께 넣은 경우에는 어셈블리 퀄리티가 더 높아진 것으로 나타났으나 이는 대부분 coverage와 validity가 높아졌기 때문으로 보인다.

• CBCB팀의 경우에는 PacBio read를 Illumina와 454 read로 correction한 후 어셈블리를 수행하였는데 그 결과 꽤 괜찮은 퀄리티를 얻었으나 NG50 scaffold 길이가 현저하게 낮았다.

• 여러 종류의 유전체를 함께 분석한 경우, 1,2,5,7,14위의 랭킹을 보였으며 이 중 PacBio를 포함시킨 BCM, CBCB의 경우 높은 contig 길이를 보였다.

6.3. 크기가 전부는 아니다

• 어셈블리는 크기 면에서 다양하게 도출되었으며 크기와 상관없이 아주 크거나 작은 어셈블리들이 다양한 기준에서 높은 점수를 획득하였다.

• 예를 들어 Ray 팀의 경우 가장 작은 물고기 어셈블리 (estimated genome size의 80%)를 만들었지만 REAPR summary score에서 2번째로 높은 점수를 획득하였다.

6.4. Assemblathon2에서 얻을 교훈

1) Lack of consistency between assemblies

• 하나의 기준에서 높은 퀄리티를 획득하더라도 다른 기준에서는 낮은 퀄리티로 책정될 수 있다.

• SGA팀은 뱀 유전체에서 전체 1등이었지만 개별 기준에서는 1번을 제외하고는 1등이 아니었다.

• BCM-HGSC팀은 새와 물고기에서 전체 1등이었지만 뱀 유전체에서는 낮은 rank였다.

2) Repeat, Heterozygosity

• 뱀 유전체에서 가장 좋은 어셈블리를 획득하였지만 뱀 유전체는 다른 두 종에 비해 오히려 더 큰 유전체이며 read coverage 역시 가장 낮았다.

RepeatMasker 분석에서 알 수 있듯이 새 유전체에 비해 Repeat이 낮고 heterozygosity가 낮은 것이 원인으로 작용했을 것으로 예측된다.

3) N50 scaffold length

• 가장 보편적인 평가 기준이지만 N50에만 의존해서는 안된다.

• 예를 들어 SOAP 새 어셈블리는 N50 길이가 두번째로 높았지만 전반적인 평가로는 6번째에 불과하였으며 Ray는 N50으로는 9번째였지만 2개의 COMPASS분석 결과로는 1등이었다.

4) Feature-Response Curve (FRC)

• 최근에는 Paired-end와 mate-pair read를 이용한 FRC으로 어셈블리를 평가하려는 시도가 있었다.

• 이 분석 방법은 정확도와 연속성 간 trade-off를 시도한다.

• 이 분석 방법에 의하면 SGA와 Meraculous가 가장 높은 퀄리티의 어셈블리를 구축한 것으로 나타난다.

6.5. De novo 유전체 어셈블리 시 고려 사항

• Don’t trust the results of a single assembly

• Do not place too much faith in a single metric

• Potentially chose an assembler that excels in the area you are interested in (e.g., coverage, continuity)

• If you are interested in generating a genome assembly for the purpose of genic analysis (e.g., training gene finder), then it may not be necessary to be concerned by low N50 value of by a small assembly size

• Assess the levels of heterozygosity in your target genome before you assemble it

출처 : http://www.ncbi.nlm.nih.gov/pubmed/23870653

0.0.1_20210630_7_v33