Skip to content

R(프로그래밍 언어) TrinotateR #

Find similar titles

2회 업데이트 됨.

Edit
  • 최초 작성자
    acorn
  • 최근 업데이트
    shlee

Structured data

Category
Programming

TrinotateR #

TrinotateR은 Trinotate의 output인 annotation report를 요약해주는 R 패키지다. multiple hit BLAST homologous, Pfam protein domains, GO annotations을 분리하고, 간단한 annotation 통계까지 확인할 수 있다.

Install #

install.package()가 아닌 install_github()를 이용하여 패키지를 설치한다.

library(devtools)
install_github("cstubben/trinotateR")

사용법 #

load #

read_trinotate() 함수를 이용하여 데이터를 로드한다. 데이터를 더 빠르게 로드하기 위해, tab으로 구분된 annotation report를 사용한다.

library(trinotateR)
x <- read_trinotate("Trinotate_report.xls")

summary #

summary_trinotate() 함수를 이용하여, table에서 unique annotation과 total annotation의 개수를 반환한다.

summary_trinotate(x)

### result
                      unique total
gene_id                56144 75228
transcript_id          65130 75228
prot_id                59260 59260
prot_coords            26889 59260
TrEMBL_Top_BLASTX_hit  38788 47358
TrEMBL_Top_BLASTP_hit  35836 43048
Pfam                   20897 25504
sprot_Top_BLASTX_hit   18586 23806
gene_ontology_blast     5996 23569
sprot_Top_BLASTP_hit   18267 22347
gene_ontology_pfam      1428 17254
eggnog                  1456 15225
TmHMM                   6236  7907
SignalP                  100  5947
RNAMMER                   20   129
transcript                 0     0
peptide                    0     0

split #

대부분의 annotation에는 역따옴표(`, backtick)로 구분된 리스트들이 존재하며, 이들은 여러 개의 hit를 포함하고 있다. 각 hit는 ^로 구분된 리스트의 여러 필드들에 속한다. 예를 들어, 아래의 두 번째 Pfam annotation에는 2개의 hit가 포함되어 있고, 각 hit에는 Pfam ID, symbol, name, alignment 및 e-value가 포함되어 있다. split_pfam() 함수를 이용하여 여러 개의 hit와 필드를 쪼갤 수 있다.

x1 <- split_pfam(x)  # 46040 Pfam annotations
head(x1,3)

### result
        gene       transcript protein    pfam          symbol                                     name   align  evalue
1: GG10000|c0_g1 GG10000|c0_g1_i1 m.81222 PF02586          DUF159             Uncharacterised ACR, COG2135  37-105 9.1e-20
2: GG10001|c2_g1 GG10001|c2_g1_i1 m.81232 PF01386  Ribosomal_L25p                    Ribosomal L25p family  50-139 3.8e-07
3: GG10001|c2_g1 GG10001|c2_g1_i1 m.81232 PF14693 Ribosomal_TL5_C Ribosomal protein TL5, C-terminal domain 154-209 3.5e-09

summary_pfam() 함수는 고유한 Pfam identifier와 annotation이 존재하는 유전자, 전사체 및 단백질의 총수를 보여준다.

x2 <- summary_pfam(x1)  # 3278 rows
head(x2)

### result
  pfam      symbol                       name genes transcripts proteins total
1: PF00069     Pkinase      Protein kinase domain   655         953      999  1030
2: PF07714 Pkinase_Tyr    Protein tyrosine kinase   619         909      952   989
3: PF00400        WD40   WD domain, G-beta repeat   344         431      445   953
4: PF13504       LRR_7        Leucine rich repeat   333         383      393  2263
5: PF00023         Ank             Ankyrin repeat   299         367      404  1029
6: PF12796       Ank_2 Ankyrin repeats (3 copies)   255         321      363   739

Reference #

0.0.1_20230725_7_v68