Merge contigs
#
Find similar titles
- 최초 작성자
- 최근 업데이트
Structured data
- Category
- Software
De novo assembly 알고리즘 특성상 contigs간 redundancy 문제가 발생할 수 있다. 이러한 contigs redundancy를 제거하지 않을 경우 genome size가 실제보다 큰 draft genome이 얻어질 수 있고 특히 sequencing error로 인해 branch가 형성됨으로 인해 생긴 duplicated contigs로 인하여 false-positive가 증가할 수 있다. BUSCO 프로그램을 이용하여 duplicated core gene의 개수를 확인함으로써 redundancy 정도를 가늠해 볼 수도 있으나 gene set이 한정적이기 때문에 정확한 수치는 아니다.
이 문제를 해결하기 위해서 다음과 같이 다양한 프로그램들이 존재한다.
-
PSI-CD-HIT (링크 : CD-HIT 패키지의 한 툴로 원래는 protein의 클러스터링을 위해 고안되었으나 어셈블리 결과 genome 서열의 클러스터링에도 이용됨.
-
Velvet : De novo assembly 결과 contigs를 input으로 -conserveLong 모드 사용하여 다시 de novo assembly를 수행함.
-
MAIA (링크) : Matlab code를 사용하고 있고 de novo assembly 결과 contigs 뿐만 아니라 유연관계가 높은 reference genome의 병합에도 사용될 수 있다고 하나 2010년 이후로 업데이트가 진행되지 않고 있음.
-
minimus2 (링크) : AMOS 패키지의 한 툴로써 mummer3와 blat을 사용함. 기존의 [minimus]의 업그레이드 버전으로 훨씬 빠르다고 함.
Suggested Pages #
- 0.025 Scaffold
- 0.025 Indel
- 0.025 Human genome project
- 0.025 Illumina HiSeq2000
- 0.025 Assembly
- 0.025 FASTQ
- 0.025 Whole Genome Sequencing
- 0.025 FASTA
- 0.025 Roche 454 GS-FLX
- 0.025 클러스터링
- More suggestions...