BUSCO
#
Find similar titles
- (rev. 4)
- Hyungyong Kim
Structured data
- Category
- Software
Goodbye CEGMA, hello BUSCO! 유전체 분석 프로젝트에서 De novo assembly를 통해 draft genome을 완성하면 그 genome의 퀄리티는 N50, total length, input reads usage 등으로 확인할 수 있고 이에 덧붙여 CEGMA를 이용하여 core eukaryotic gene의 존재 유무를 검색함으로써 판단해왔다.
하지만 CEGMA의 원래 개발자는 이미 7년 전에 떠났고 여러 프로그램들의 의존성 문제때문에 설치마저 어려운 CEGMA를 유지하느라 고생스러웠던 연구팀은 BUSCO라는 새로운 툴의 개발을 열렬히 환영하며 Goodbye CEGMA를 외치게 된다. 심지어 CEGMA 홈페이지에서도 2015년 5월 이후로 더 이상의 지원은 없을 예정이며 BUSCO의 사용을 권장한다고 명시하고 있을 정도이다.
BUSCO는 OrthoDB에 근거하여 Ortholog set을 선별하여 특정 분류계 (Arthropods, Vertebrates, Fungi, Bacteria, Metazoans, Eukaryotes, Plants)에 따른 엄선된 유전자셋을 검색하여 어셈블리 퀄리티를 가늠하게 한다 (홈페이지 링크). Metazoans 선택시 총 843개의 유전자를 검색하여 200여개에 불과한 CEGMA에 비해 훨씬 신뢰도가 높아졌다.
Table of Contents
Install #
Requirement #
- BLAST+
- HMMER (v3.1b2)
- Augustus (v3.0.x) (genome only)
- EMBOSS toos (v6.x.x) (transcriptome only)
- python (v3.0+)
Usage #
Genome assembly assessment #
> python BUSCO_v1.1b.py -o NAME -in ASSEMBLY -l LINEAGE -m genome
Gene set assessment #
> python BUSCO_v1.1b.py -o NAME -in GENE_SET -l LINEAGE -m OGS
Transcriptome assessment #
> python BUSCO_v1.1b.py -o NAME -in TRANSCRIPTOME -l LINEAGE -m trans
Tips #
-
다음과 같은 에러는 Augustus가 해당 gene을 prediction하지 못한 경우로 실제 에러가 아님
Error: Sequence file ./run/augustus_proteins/BUSCOmEOG79GT8N.fas.2 is empty or misformatted
-
Augustus custom parameter를 인식하지 못한다는 단점이 있음