Skip to content

UNEAK #
Find similar titles

Structured data

Category
Software

Universal Network Enabled AnGalysis Kit (UNEAK) 파이프라인은 tag 서열 클러스터링을 통해 얻어지는 master tag 서열에 대하여 SNP 분석을 수행하므로 reference genome 서열이 알려지지 않은 종에 대해서도 GBS 분석을 가능하게 한다.

TASSEL (버전 3.0) 파이프라인 내 포함되어 있으므로 별도의 설치는 필요없다. UNEAK 역시 JAVA 기반의 프로그램 패키지로 구성되어 있고 각 프로그램은 TASSEL 파이프라인의 프로그램과 네이밍 뿐만 아니라 사용법이 대부분 유사하다. 예를 들어 바코드 서열 정보를 이용하여 demultiplexing을 수행하는 TASSEL의 FastqToTagCountPlugin의 경우 UNEAK 파이프라인에서는 UFastqToTagCountPlugin으로 명명될 뿐 사용법은 동일하다.

Network filtering #

샘플별로 tag 서열을 형성 (demultiplexing) 후 이 서열들을 통합하여 하나의 master tag를 형성하고 이 master tag를 reference로 하여 SNP을 분석하게 된다. Sequencing error로 인하여 발생한 unique master tag으로부터 SNP이 분석되는 것을 막기 위하여 tag 서열간 pairwise alignment를 통한 network filtering을 수행하여 error tolerance rate (ETR)을 기준으로 false-positive를 제거하게 된다. 이 단계를 수행하는 프로그램은 UTagCountToTagPairPlugin이고 UNEAK 파이프라인에서만 분석이 가능하다.

ETR이 클수록 많은 SNP이 탐색되지만 그만큼 에러율도 높아질 것이고 ETR이 0에 가까울 수록 정확도는 증가한다. 메뉴얼에 따르면 Illumina sequencing error rate을 고려할 때 ETR은 0.05를 넘지 않는 것이 좋다고 한다.

Output #

Network filtering을 통해 선별된 tag 서열에 대해서 샘플별로 SNP 분석을 수행하고 그 결과는 HapMap 파일로 출력이 된다.

디스크 사용량과 저장 공간을 줄이기 위해서 Heterozygote는 IUPAC nucleotide code를 출력된다.

HapMap 파일 외에도 샘플별 SNP depth (tag counts)를 확인할 수 있는 HapMap.hmc.txt 파일과 SNP tags 서열에 대한 HapMap.fas.txt 파일이 생성된다.

이슈 #

UNEAK 파이프라인을 이용한 분석은 Tassel version 3.0에서만 가능하며 별도로 자바 스크립트를 수정하여 Tassel 5.0에서도 분석할 수는 있다. 하지만 개발자의 커맨트 (2015년 2월)에 따르면 아주 퀄리티가 낮은 draft genome 일지라도 reference로 두고 분석하는 것이 UNEAK 파이프라인 보다 정확도가 높기 때문에 더이상 UNEAK 파이프라인에 대한 지원은 없을 예정이라고 한다 (관련 로그).

Incoming Links #

Related Bioinformaticses #

Suggested Pages #

0.0.1_20140628_0