Skip to content

De novo assembly #
Find similar titles

Structured data

Category
Analysis

De novo assembly #

정의 #

De novo assembly(드노보 어셈블리)는 별도의 reference gene없이 유전체를 만드는 Assembly로 쉽게 말하면, 유전체 초안지도 작성이라고 할 수 있다.

참고로 de novo란 라틴어에서 유래한 말로 ’처음부터(from the beginning)‘, ’다시(again)‘를 뜻한다.

배경 #

Human genome project 이후에 다양한 종에서 Whole Genome Sequencing (WGS)이 진행되고 있었다. NGS 시대에 들어 유전체 시퀀싱을 단 7.5 시간 만에 수행하고 자동화된 genome annotation 파이프라인을 통해 단 3일 만에 논문으로 발표한 경우도 있었다. 그러나 미생물을 제외한 대부분의 종에서는 아직까지 NGS를 이용한 de novo assembly로 유전체 시퀀싱을 완성한 팀은 없다고 한다.
짧은 read의 제한적인 정보로 복잡한 유전체 구조를 밝히기엔 어려움이 따르기 때문에reference가 없는 새로운 종을 시퀀싱 할 경우에는 짧은 reads를 생성하는 long read 시퀀싱이 유용하다. 이때, 유전체 구조상 반복 서열과 같은 서열상의 정보로만 분석 되지 않는 부분은 paired-end read의 단편 크기를 다양하게 디자인하여 long read와 함께 분석한다.

과정 #

표준유전체가 없는 대상의 경우 Roche 454 GS-FLXIllumina HiSeq2000 등의 장비를 사용해서 중거리 또는 단거리 서열들을 생산하고 이를 생명정보학적으로 연결 조립해야 한다. 기존 Sanger법과는 달리 서열 증폭을 위한 배양단계가 빠지므로 드노보 어셈블리에 필요한 서열을 단기간에 생산을 할 수 있다.

1. overlap graph 혹은 de Bruijn graph방식에 의해 [[Contig]]를 만든다.  
(주로 Paired-end로 생산된 짧은 단편이 사용된다.)  
2. contig를 Mate-pair방식으로 생산된 긴 라이브러리로 서로 gap을 포함하여 [[Scaffold]]를 만든다.  
3. scaffold들은 gap filling 과정을 거쳐 draft 유전체로 완성된다.

overlap graph방식 #

overlap graph 방식은 기존에 Sanger법에서 쓰였던 방식이다.
Overlap graph 방식은 모든 에러에 강한 반면 계산 중간에 나오는 결과의 저장과 불러들임이 빈번히 일어나므로 고속의 대용량 저장장치가 성능을 좌우한다.

de Bruijn graph 방식 #

NGS로 생산된 대용량의 데이터를 처리하기 위해서 최근 개발된 방식이다.

de Bruijn graph 방식은 Indel 에러에 약한 반면 overlap graph 방식에 비하여 수 십배 이상의 빠른 속도와 데이터의 증가에 따라 필요한 컴퓨터 리소스의 증가가 훨씬 적다는 점이 장점이지만, 기본적으로 계산에 필요한 데이터를 메모리에 모두 올려 작업을 수행하므로 대용량 메모리가 장착된 시스템이 요구된다.

<참조 : http://blog.daum.net/kimuks/7532948>

시퀀싱 #

NGS 시퀀싱 기기는 현재 Illumina의 HiSeq/MiSeq, Roche의 454 GS-FLX+, Life Technologies의 SOLiD/IonTorrent, 및 PacBio RS가 있다.
각 기기에서 나오는 결과는 크게 FASTQFASTA포맷으로 변환하여 어셈블리 툴에 활용가능하다.

Incoming Links #

Related Bioinformaticses #

Suggested Pages #

0.0.1_20140628_0