PASA
#
Find similar titles
- 최초 작성자
-
최근 업데이트
mhjung@insilicogen.com
Structured data
- Category
- Software
- Image
- URL
- http://pasapipeline.github.io
Table of Contents
PASA #
PASA는 TIGR (The Institute for Genomic Research)에서 개발한 Gene structure annotation 툴로서 assembled spliced alignment로부터 gene structure를 예측한다.
기존에 gene structure annotation이 존재하면 UTR영역이나 exon boundary를 업데이트 해주고, 유전자의 병합 또는 나누기, novel gene도 찾아준다.
annotation update #
PASA를 이용하여 기존의 annotation을 업데이트 할 수 있다. 두 단계로 진행되는데 첫번째 단계는 기존 annotation을 pasa database에 로딩하는 과정이다. 이 때 사용되는 input파일은 1)genome.fasta, 2)orig_annotations.gff3 이다.
scripts/Load_Current_Gene_Annotations.dbi \
-c alignAssembly.config \
-g genome.fasta \
-P orig_annotations.gff3
는 gff3형식에 맞게 작성되어있어야 한다. pasa에 함께 제공되는 misc_utilities/pasa_gff3_validator.pl
펄 스크립트를 이용하여 validation 할 수 있다.
misc_utilities/pasa_gff3_validator.pl orig_annotations.gff3
original annotation 로딩 후 진행하는 두번째 단계는, pasa alignment과 을 비교하여 업데이트하는 과정이다. 사용되는 input파일은 1)genome.fasta와 2)all_transcript.fasta이다.
scripts/Launch_PASA_pipeline.pl \
-c annotCompare.config \
-A -g genome_sample.fasta \
-t all_transcripts.fasta.clean
최종적으로 생성되는 파일은 ${mysql_db}.gene_structures_post_PASA_updates.$pid.gff3
이다.
DB 사용 #
이전 버전의 PASA는 mysql을 기본으로 사용하도록 되어 왔으나 mysql의 셋팅 문제 등으로 인해 어려움이 있을 수 있으므로 최신 버전 (v2.3.3)에서는 SQLITE를 default로 사용하도록 변경되었다. SQLITE 프로그램만 서버 내 설치되어 있으면 사용이 가능하다. 다만 pasa 프로그램이 실행될 때 정보를 입력받는 config 파일은 mysql와 SQLITE 버전 각각 별도로 제공되어야 하며 이는 pasa 설치 디렉토리 내 sample_data 디렉토리에서 확인할 수 있다.
PASA 에러 처리 #
Input으로 사용되는 transcript ID에 "/"가 포함되면 assembly_db_loader.dbi 단계에서 다음과 같은 에러가 발생하므로 반드시 transcript ID를 수정한 후에 분석을 진행하도록 한다.
DBD::SQLite::db do failed: UNIQUE constraint failed: asmbl_link.asmbl_acc, asmbl_link.cdna_acc