CEGMA
#
Find similar titles
- (rev. 10)
- Hey-young
Structured data
- Category
- Software
Table of Contents
Description #
CEGMA (Core Eukaryotic Genes Mapping Approach) 는 6개 모델종 (Homo sapiens, Drosophila melanogaster, Arabidopsis thaliana, Caenorhabditis elegans, Saccharomyces cerevisiae and Schizosaccharomyces pombe)에서 458개의 highly conserved 코어 단백질을 선정하여 이들의 유전자가 genome 상에 존재하는지 탐색한다.
실험 데이터가 부족한 미지의 draft genome의 Assembly Quality를 측정하거나 유전자 예측 모델을 만드는 데 이용될 수 있다.
Usage #
$ ./bin/cegma -g genome.fa -o outfile_handle --threads 23 --verbose
Comment #
CEGMA가 NCBI BLAST+ 프로그램을 이용하여 genome fasta 서열의 BLAST 데이터베이스를 형성하는데 이때 헤더에 "|" 등의 문자가 포함될 경우 NCBI 포맷과 맞지 않아 에러가 발생하므로 미리 헤더 라인을 점검한 뒤 분석을 수행하는 것이 좋다.
Output #
- output.completeness_report 파일 : 248개의 most highly-conserved CEGMA KOGs subset에 대한 통계치를 보여주는 파일로 de novo assembly를 통해 draft genome을 형성하여 90% 이상의 Complete gene set을 얻는다면 assembly의 퀄리티가 좋다고 말할 수 있다.
- Complete : 쿼리단백질 (KOGs)과 70% 이상 매치
- partial : complete는 아니지만, pre-computed minimum alignment score는 충족하는 경우
Tips #
테스트하고자 하는 protein 서열이 존재하는 경우 hmmer를 이용하여 HMM profile을 만든 후 사용할 수 있다.
$ cegma --genome genome.fa --prot_num 4 --protein ORTH.fa --hmm_prefix ORTH --hmm_profiles hmm_profiles/ --cutoff_file profiles_cutoff.tbl
Installation #
$ wget -t 0
$ tar -zxvf CEGMA.tar.gz
$ make
Requirement #
Hmmer #
- Hmmer 사이트에서 파일 다운로드 후 설치
geneid #
- geneid 사이트에서 파일 다운로드 후 설치
-
./geneid/param 디렉토리에 params 파일 카피
$ wget -t 0 ftp://genome.crg.es/pub/software/geneid/*param*
genewise #
- genewise에서 파일을 다운로드받거나 CEGMA genewise를 클릭하여 다운로드 후 설치
genewise 설치 에러 처리 #
대부분의 설치 에러에 대한 해결 방법은 CEGMA instructions 페이지에 잘 정리되어 있다. CEGMA 홈페이지에서 제공하는 genewise 2.2.3 버전의 경우 아래와 같이 할 경우 잘 설치되었으나 test를 통과하지 못했다. 따라서 genewise 2.4.1 버전을 설치할 것을 권장한다.
설치 완료 후 genewise config 디렉토리의 path를 설정해 주어야 한다.
$ export WISECONFIGDIR=./wise2.4.1/wisecfg
-
/bin/sh: glib-config: not found 에러 발생 : gtk2 및 glib 설치
$ yum install gtk2-devel.x86_64 $ yum install glib / yum install glib-devel (for centos)
-
sqio.c:232: error: conflicting types for ‘getline’ 에러 발생
./src/HMMer2/sqio.c 파일의 getline 함수가 stdio.h에 정의된 함수와 같아서 충돌이 일어나는 것이기 때문에 getline을 getline_my로 변경
$ cd wise-2.4.1/src/HMMer2 $ sed 's/getline/getline_new/' sqio.c > a && mv a sqio.c
-
csh: Command not found 에러 발생 : csh 설치
$ yum instll tcsh
-
phasemodel.c:(.text+0x3157): undefined reference to 'isnumber' 에러 발생
src/models/phasemodel.c의 23번째 줄의 isnumber를 isdigit으로 변경
NCBI BLAST+ #
- NCBI BLAST+ 페이지에서 파일 다운로드 후 압축 해제
CEGMA 사용시 발생할 수 있는 에러 #
- Makeblastdb에서 생기는 에러
- De-novo assembly 또는 scaffolding을 통해 만들어진 draft genome에 경우 fasta의 header 부분이 >서열01|Size0010과 같은 형태인 경우가 있다. 이렇게 얻어진 draft genome 서열을 가지고 CEGMA를 run하는 경우 제대로 실행되지 않고 에러가 발생한다.
- 에러 발생의 이유는 fasta의 서열 header 부분에 '|'를 Makeblastdb 단계에서 인식하지 못하여 발생하는 것이다. 그렇기 때문에 fasta의 header 부분을 변경한 다음 CEGMA를 진행해야 한다.
- fasta의 서열 내 header 부분을 변경하는 쉬운 방법으로는 Biopython의 SeqIO module을 사용하면 된다.
References #
CEGMA(http://www.incodom.kr/CEGMA)
geneid(http://hmmer.janelia.org/)
genewise(http://www.ebi.ac.uk/Wise2/)
NCBI BLAST+(ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/)