GenoTan
#
Find similar titles
- (rev. 4)
- Kevin
Structured data
- Category
- Software
Table of Contents
GenoTan #
Introduction #
GenoTan은 NGS short sequence reads로 부터 microsatelites의 length variation을 밝히는 무료 소프트웨어이다 License: GPL V3 (http://www.gnu.org/licenses/gpl-3.0.html). 즉, 여러 샘플(개체)에 포함된 다형성(Polymorphic)을 분석하는 도구로 사용된다.
challenge #
Short sequence reads를 이용해 유전적(ingerited) microsatellite allele의 길이를 추론한다는 것은 매우 도전적인 과제다. PCR amplification errors, individual cell mutation, 자체가 repeat 서열인 microsatellite의 존재로 인한 misalignment or mis-mapping 이 대표적인 이유다. 이들을 해결하기 위해 Discretized Gaussian mixture model을 이용한 방법을 개발했다. 이것은 homopolymers 에서 indel 에러로 부터 효과적으로 length variations을 확인하는데 효과적이다.
Install #
리눅스 환경에서 작동하며, 소스코드는 sourceforge를 통해 다운받는다. URL과 다운로드 명령어는 아래 박스를 참고한다.
URL : http://sourceforge.net/projects/genotan/files/
directly command : wget http://heanet.dl.sourceforge.net/project/genotan/GenoTan.0.1.5.tar.gz
다운이 완료된 후, 해당 파일의 압축을 해제하고 디렉토리로 이동한다. 관련 환경변수를 적용한 후 make 명령어로 컴파일한다.
$ tar xzf genotan.[VERSION].tar.gz
$ cd genotan.[VERSION]
INCLUDES= -I. -I$(HOME)/opt/include
LIBPATH= -L$(HOME)/opt/lib
$ make
사용법 #
GenoTan은 크게 세개의 단계로 구성된다.
- Searching microsatellites
- Realignment of sequence reads mapped to the microsatellite loci
- Run GenoTan
첫 단계에서는 TRF나 STRViper, 그리고 SSRIT를 이용해 microsatellites를 예측하는 단계다. 언급한 프로그램외에도 다른 프로그램을 사용해도 무방하며 GenoTan의 input format 에 맞추면된다.
[chromosome], [starting position], [length], [motif], [sequence] in a tab-delimited format
Ex)
chr1 26454 12 GT GTGTGTGTGTGT
chr1 28589 15 T TTTTTTTTTTTTTTT
chr1 44836 32 AAAT AAATAAATAAATAAATAAATAAATAAATAAAT
chr1 722365 20 ATTT ATTTATTTATTTATTTATTT
다음 단계는 microsatellites를 예측한 reference 서열에 short sequence reads를 mapping 한다. bowtie, bowtie2, bwa등의 alignment tool을 사용해 SAM파일을 구성하며 GATK 또한 사용가능하다.
앞선 두 단계에서 제작한 microsatellites list와 sam 파일을 이용해 GenoTan을 실행한다.
genotan -m <microsatellite list file> <sam or bam file> [-o <output file>] [-L off] [-C <0.01-0.99>] [-c <0.01-0.99>] [-q <0-255 >]
-L off : Turn off the normalization of read counts using the allele lengths (default : on)
-C FLOAT [0.01-0.99] : If a confidence score of a higher read frequency allele at a locus is lower than the cutoff value, a genotype of the locus will not be reported. (default : 0.35)
-c FLOAT [0.01-0.99] : If a confidence score of a lower read frequency allele at a locus is lower than the cutoff value, the allele will not be reported. (default : 0.25)
-q INT [0-255] : if a mapping quality of a read is lower than the cutoff value, the read will not be used. (default : 5)
-O INT [0: no sequence, 1: sequence output]: It decides the output style. (default : 1)