R(프로그래밍 언어)
TrinotateR
#
Find similar titles
- 최초 작성자
- 최근 업데이트
Structured data
- Category
- Programming
TrinotateR #
TrinotateR은 Trinotate의 output인 annotation report를 요약해주는 R 패키지다. multiple hit BLAST homologous, Pfam protein domains, GO annotations을 분리하고, 간단한 annotation 통계까지 확인할 수 있다.
Install #
install.package()가 아닌 install_github()를 이용하여 패키지를 설치한다.
library(devtools)
install_github("cstubben/trinotateR")
사용법 #
load #
read_trinotate() 함수를 이용하여 데이터를 로드한다. 데이터를 더 빠르게 로드하기 위해, tab으로 구분된 annotation report를 사용한다.
library(trinotateR)
x <- read_trinotate("Trinotate_report.xls")
summary #
summary_trinotate() 함수를 이용하여, table에서 unique annotation과 total annotation의 개수를 반환한다.
summary_trinotate(x)
### result
unique total
gene_id 56144 75228
transcript_id 65130 75228
prot_id 59260 59260
prot_coords 26889 59260
TrEMBL_Top_BLASTX_hit 38788 47358
TrEMBL_Top_BLASTP_hit 35836 43048
Pfam 20897 25504
sprot_Top_BLASTX_hit 18586 23806
gene_ontology_blast 5996 23569
sprot_Top_BLASTP_hit 18267 22347
gene_ontology_pfam 1428 17254
eggnog 1456 15225
TmHMM 6236 7907
SignalP 100 5947
RNAMMER 20 129
transcript 0 0
peptide 0 0
split #
대부분의 annotation에는 역따옴표(`, backtick)로 구분된 리스트들이 존재하며, 이들은 여러 개의 hit를 포함하고 있다. 각 hit는 ^로 구분된 리스트의 여러 필드들에 속한다. 예를 들어, 아래의 두 번째 Pfam annotation에는 2개의 hit가 포함되어 있고, 각 hit에는 Pfam ID, symbol, name, alignment 및 e-value가 포함되어 있다. split_pfam() 함수를 이용하여 여러 개의 hit와 필드를 쪼갤 수 있다.
x1 <- split_pfam(x) # 46040 Pfam annotations
head(x1,3)
### result
gene transcript protein pfam symbol name align evalue
1: GG10000|c0_g1 GG10000|c0_g1_i1 m.81222 PF02586 DUF159 Uncharacterised ACR, COG2135 37-105 9.1e-20
2: GG10001|c2_g1 GG10001|c2_g1_i1 m.81232 PF01386 Ribosomal_L25p Ribosomal L25p family 50-139 3.8e-07
3: GG10001|c2_g1 GG10001|c2_g1_i1 m.81232 PF14693 Ribosomal_TL5_C Ribosomal protein TL5, C-terminal domain 154-209 3.5e-09
summary_pfam() 함수는 고유한 Pfam identifier와 annotation이 존재하는 유전자, 전사체 및 단백질의 총수를 보여준다.
x2 <- summary_pfam(x1) # 3278 rows
head(x2)
### result
pfam symbol name genes transcripts proteins total
1: PF00069 Pkinase Protein kinase domain 655 953 999 1030
2: PF07714 Pkinase_Tyr Protein tyrosine kinase 619 909 952 989
3: PF00400 WD40 WD domain, G-beta repeat 344 431 445 953
4: PF13504 LRR_7 Leucine rich repeat 333 383 393 2263
5: PF00023 Ank Ankyrin repeat 299 367 404 1029
6: PF12796 Ank_2 Ankyrin repeats (3 copies) 255 321 363 739
Reference #
- trinotateR github : https://github.com/cstubben/trinotateR