SnpEff
#
Find similar titles
- 최초 작성자
- 최근 업데이트
Structured data
- Category
- Software
Table of Contents
SnpEff #
개요 #
유전적 변이에 대한 annotation을 수행하는 프로그램이다. 염기서열 변경에 의한 아미노산 서열의 변화와 같은 변이의 구조적 영향을 예측하는 목적으로 사용된다. 전세계 약 83개 기관에서 사용 중이다. 범용적으로 사용되는 변이 분석 프로그램(GATK)와 연동이 가능하여 파이프라인화하기 용이하므로 많이 사용되고 있다.
특징 #
- > 38,000 genome 분석가능.
- 표준 ANN annotation 양식
- 암변이분석
- GATK 호환
- HGVS notation
- Sequence Ontology standardized terms
설치 #
-
다운로드 및 설치
$ wget http://sourceforge.net/projects/snpeff/files/snpEff_latest_core.zip $ unzip snpEff_latest_core.zip
사용법 #
입력파일: SNP, Indel, MNP와 같은 예측된 유전변이 정보를 담고 있는 variant call format([VCF])파일을 입력으로 받는다. 출력파일: 변이에 대한 annotation과 유전자에의 구조적영향 예측한 정보를 담고 있는 VCF 파일 혹은 txt 양식으로 출력한다.
SnpEff는 분석 데이터 종류에 따라 genome reference가 존재하는 경우와 custom reference 모두 사용이 가능하다.
-
reference 유무의 확인
$ java -jar snpEff.jar databases | less $ java -jar snpEff.jar databases | grep [종의 학명]
-
Reference 다운로드 방법
$ java -jar snpEff.jar download -v [reference]
-
Reference가 데이터베이스에 존재하는 경우
$ java -jar snpEff.jar [reference] [input vcf] > [output vcf]
-
사용자 데이터베이스를 만들고자하는 경우
-
Custom 데이터베이스 만들기 및 실행
# /path/to/snpEff/genome/[reference.fa] $ mkdir /path/to/snpEff/data/[reference Name] $ /path/to/snpEff/data/[reference Name]/genes[.gb|.gbk|.gff3|.gtf] # snpEff 디렉토리 내 snpeff.conig에 reference 정보 입력 # [reference name] genome, [description] [reference].genome : [reference] $ cd /path/to/snpEff $ java -jar snpEff.jar build -genbank -v [reference] # GeneBank format인 경우
-
GATK와 연동하는 경우
$ java -Xmx4G -jar snpeff.jar -c $HOME/snpEff/snpEff.config -v -o gatk [reference] [input.vcf] > [output.vcf]
결과 #
VCF 형식 #
#CHROM POS ID REF ALT QUAL FILTER INFO
1 889455 . G A 100.0 PASS AF=0.0005;EFF=STOP_GAINED(HIGH|NONSENSE|Cag/Tag|Q236*|749|NOC2L||CODING|NM_015658|)
1 897062 . C T 100.0 PASS AF=0.0005;EFF=STOP_GAINED(HIGH|NONSENSE|Cag/Tag|Q141*|642|KLHL17||CODING|NM_198317|)
annotation #
* 자세한 내용 및 활용은 아래 링크 참조
<http://snpeff.sourceforge.net/SnpEff_manual.html#input>
호환성 #
참고자료 #
- "A program for annotating and predicting the effects of single nucleotide polymorphisms, SnpEff: SNPs in the genome of Drosophila melanogaster strain w1118; iso-2; iso-3.", Cingolani P, Platts A, Wang le L, Coon M, Nguyen T, Wang L, Land SJ, Lu X, Ruden DM. Fly (Austin). 2012 Apr-Jun;6(2):80-92. PMID: 22728672 [PubMed - in process]