Skip to content

Merge contigs #
Find similar titles

Structured data

Category
Software

De novo assembly 알고리즘 특성상 contigsredundancy 문제가 발생할 수 있다. 이러한 contigs redundancy를 제거하지 않을 경우 genome size가 실제보다 큰 draft genome이 얻어질 수 있고 특히 sequencing error로 인해 branch가 형성됨으로 인해 생긴 duplicated contigs로 인하여 false-positive가 증가할 수 있다. BUSCO 프로그램을 이용하여 duplicated core gene의 개수를 확인함으로써 redundancy 정도를 가늠해 볼 수도 있으나 gene set이 한정적이기 때문에 정확한 수치는 아니다.

이 문제를 해결하기 위해서 다음과 같이 다양한 프로그램들이 존재한다.

  1. PSI-CD-HIT (링크 : CD-HIT 패키지의 한 툴로 원래는 protein의 클러스터링을 위해 고안되었으나 어셈블리 결과 genome 서열의 클러스터링에도 이용됨.

  2. Velvet : De novo assembly 결과 contigs를 input으로 -conserveLong 모드 사용하여 다시 de novo assembly를 수행함.

  3. GAM-NGS (링크)

  4. MAIA (링크) : Matlab code를 사용하고 있고 de novo assembly 결과 contigs 뿐만 아니라 유연관계가 높은 reference genome의 병합에도 사용될 수 있다고 하나 2010년 이후로 업데이트가 진행되지 않고 있음.

  5. e-RGA (링크): 근연종의 reference 서열이 있는 경우 사용할 수 있음. Perl로 작성됨.

  6. minimus2 (링크) : AMOS 패키지의 한 툴로써 mummer3와 blat을 사용함. 기존의 [minimus]의 업그레이드 버전으로 훨씬 빠르다고 함.

Suggested Pages #

0.0.1_20140628_0