Skip to content

TransDecoder #
Find similar titles

Structured data

Category
Software

소개 #

TransDecoder는 전사체(transcripts)에서 coding region을 찾아주는 프로그램이다. 예를 들면, CLC_assembler 혹은 Trinity 등을 이용해 De-novo assembly 를 통한 draft transcriptome을 제작했지만, RNAseq의 특성상 이론적인 mRNA만 시퀀싱되지않는 문제점이 내제되어있다. 따라서, 몇몇 경우에 coding region의 확인이 필요하다. 또한, reference genome을 이용한 RNAseq 분석에서도 well annotated genome 이 아닌 경우에 정확한 ORF를 확인해야할 필요가 있다. 즉, 어떠한 분석접근법에서도 전사체의 coding region을 찾는데 매우 강력한 도구라 할 수 있다.

TransDecoder는 여러 유명한 소프트웨어(Trinity, PASA, EVidenceModeler, Trinotate)에 내장된 프로그램으로 그 정확도는 검증됐다.

coding sequences 예측 조건 #

  1. 하나의 전사체서열내에 최소한의 길이를 만족하는 [open reading frame] ([ORF])가 존재해야함.
  2. log-likelihood score는 GeneID software로 계산된 양수의 값과 비슷해야함.
  3. 6 reading frame 의 coding score 중 1st reading frame 을 채택함.
  4. 여러개의 candidate ORF가 후보가 될 경우, 가장 긴 ORF를 채택함.
  5. (옵션) 예측된 peptide는 Pfam domain과 match하기 위해서 noise cutoff score 보다 높아야함.

설치 #

사용 #

TransDecoder 는 사용법이 매우 간단하다. 인풋은 fasta 포맷의 transcripts 서열이다. 선택적으로 Pfam domain 과의 match가 가능하다.

TransDecoder -t transcripts.fasta

결과파일 #

TransDecoder는 몇몇 결과 파일을 생성한다. 그중 결과 파일은 아래와 같다. gff3, bed format 파일도 지원하고 있어 추가적인 다양한 용도로 활용이 가능하다.

  • transcripts.fasta.transdecoder.pep
  • transcripts.fasta.transdecoder.cds
  • transcripts.fasta.transdecoder.gff3
  • transcripts.fasta.transdecoder.bed

적용 #

longest ORF per transcripts #

TransDecoder/latest/util/get_longest_ORF_per_transcript.pl *..transdecoder.pep > .transdecoder.longest_per_Transcripts.pep

longest ORF's GFF3 file #

1. gff3 indexing
TransDecoder/latest/util/index_gff3_files_by_isoform.pl *.transdecoder.gff3
grep '>' .longest_per_Transcripts.pep | perl -lane 'if (/>(\S+)/) { print "$1";}' > accs
2. make sub gff3 
latest/util/gene_list_to_gff.pl accs .transdecoder.gff3.inx > .transdecoder.longest_per_Transcripts.gff3

Suggested Pages #

0.0.1_20140628_0