BUSCO
#
Find similar titles
- 최초 작성자
- 최근 업데이트
Structured data
- Category
- Software
Goodbye CEGMA, hello BUSCO! 유전체 분석 프로젝트에서 De novo assembly를 통해 draft genome을 완성하면 그 genome의 퀄리티는 N50, total length, input reads usage 등으로 확인할 수 있고 이에 덧붙여 CEGMA를 이용하여 core eukaryotic gene의 존재 유무를 검색함으로써 판단해왔다.
하지만 CEGMA의 원래 개발자는 이미 7년 전에 떠났고 여러 프로그램들의 의존성 문제 때문에 설치마저 어려운 CEGMA를 유지하느라 고생스러웠던 연구팀은 BUSCO라는 새로운 툴의 개발을 열렬히 환영하며 Goodbye CEGMA를 외치게 된다. 심지어 CEGMA 홈페이지에서도 2015년 5월 이후로 더 이상의 지원은 없을 예정이며 BUSCO의 사용을 권장한다고 명시하고 있을 정도이다.
BUSCO는 OrthoDB에 근거하여 Ortholog set을 선별하여 특정 분류계 (Arthropods, Vertebrates, Fungi, Bacteria, Metazoans, Eukaryotes, Plants)에 따른 엄선된 유전자 셋을 검색하여 어셈블리 퀄리티를 가늠하게 한다 (홈페이지 링크). Metazoans 선택 시 총 843개의 유전자를 검색하여 200여 개에 불과한 CEGMA에 비해 훨씬 신뢰도가 높아졌다.
Table of Contents
Install #
Requirement #
- BLAST+
- HMMER (v3.1b2)
- Augustus (v3.0.x) (genome only)
- EMBOSS toos (v6.x.x) (transcriptome only)
- python (v3.0+)
Usage #
BUSCO를 사용하기 위해서는 BUSCO 버전에 맞는 ortholog DB가 필요하다. BUSCO v5 기준 BUSCO dataset(*_odb10
)을 사용할 수 있다.
아래 명령어를 통해 사용 가능한 DB를 확인할 수 있으며, 홈페이지를 통하여 직접 다운받을 수도 있다(lineages).
> busco --list-datasets
Genome mode : assessing a genome assembly #
Genome mode를 사용하기 위해서는 tBLASTn(prokaryotes) 또는 Metaeuk(eukaryotes), HMMER가 필요하다.
> busco -m -i INPUT.nucleotides -o OUTPUT -l LINEAGE
Protein mode : assessing a gene set #
Protein mode를 사용하기 위해서는 HMMER프로그램이 필요하다.
> busco -m protein -i INPUT.amino_acids -o OUTPUT -l LINEAGE
Transcriptome mode : assessing assembled transcripts #
Transcriptome mode를 사용하기 위해서는 tBLASTn(prokaryotes) 또는 Metaeuk(eukaryotes), HMMER가 필요하다.
> busco -m transcriptome -i INPUT.nucleotides -o OUTPUT -l LINEAGE
Result #
BUSCO의 결과는 Complete and Single-copy, Complete and duplicated, Fragmented, Missing BUSCOs의 카테고리로 단순화되어 있다.
Report에는 C:89.0%[S:85.8%,D:3.2%],F:6.9%,M:4.1%,n:3023
처럼 표기된다.
BUSCO에서 제공하는generate_plot.py
script를 이용하면 결과를 그래프로 쉽게 나타낼 수 있다. directory를 만들어 BUSCO short summary file을 복사한 후 script를 수행하면 PNG 이미지와 R script 코드가 생성된다. R script 파일을 수정하여 글꼴, 색상, 레이블 등을 변경할 수 있다.
mkdir my_summaries cp SPEC1/short_summary.generic.lineage1_odb10.SPEC1.txt my_summaries/. cp SPEC2/short_summary.generic.lineage2_odb10.SPEC2.txt my_summaries/. cp SPEC3/short_summary.specific.lineage2_odb10.SPEC3.txt my_summaries/. cp SPEC4/short_summary.generic.lineage3_odb10.SPEC4.txt my_summaries/. cp SPEC5/short_summary.generic.lineage4_odb10.SPEC5.txt my_summaries/. python3 scripts/generate_plot.py –wd my_summaries
Reference #
- BUSCO : https://busco.ezlab.org/
- BUSCO user guide : https://busco.ezlab.org/busco_userguide.html