TCGAbiolinks
#
Find similar titles
- 최초 작성자
-
최근 업데이트
nwchoi@insilicogen.com
Structured data
- Category
- Software
Table of Contents
TCGAbiolinks?
#
TCGA 데이터의 통합분석을 위한 R/Bioconductor 패키지이다.
The Cancer Genome Atlas (TCGA)는 33개의 다른 암종에서 10,000명의 암 환자를 임상적, 분자생물학적 표현형으로 나눈 데이터를 방대하게 모아 놓았다. 그러나 TCGA 데이터 분석에는 임상 데이터의 통합이나 다른 타입의 데이터(예를 들면, RNA와 DNA 메틸레이션)를 통합분석이 힘들다는 문제점이 있다. TCGA biolinks는 이 문제점의 해결을 위해 사용자에게 qeury, download와 TCGA 통합분석을 수행하는 솔루션을 제공해 준다.
설치
#
source("https://bioconductor.org/biocLite.R")
biocLite("TCGAbiolinks")
논문
#
A Colaprico (2015). “TCGAbiolinks: an R/Bioconductor package for integrative analysis of TCGA data” Nucleic Acids Res. 2016 May 5;44(8):e71.
세부사항
#
TCGAbiolinks 버전: 2.2.6
R version: R >= 3.2
Biocondunctor: BioC 3.2
License: GPL >=3
URL: https://github.com/BioinformaticsFMRP/TCGAbiolinks
내용
#
<그림1. TCGA 데이터 개요>
A. 막대그래프는 질병 별 환자의 수를 나타내며, 오른쪽에 동그라미는 질병별로 사용가능한 데이터 크기를 TB로 표시한 결과이다.
B. 플랫폼별 genomic, transcriptomic, epigenomic 그룹별 환자의 수를 나타낸다.
C. 막대그래프는 TCGA데이터의 인용횟수를 연도별로 나타낸다.
<그림2. TCGAbiolinks 기능의 모식도>

TCGAbiolinks는 그림 2.처럼 3개의 기능적인 카테고리로 나눠지며, 각 기능에 대한 내용은 아래와 같다.
데이터 (Data)
#
첫 번째 기능인 데이터 부분은 TCGA 데이터베이스에 명령어를 실행하여, 데이터를 다운받고, 사용가능한 형태로 만들어 준다. 이는 크게 세가지 주요기능으로 나눠진다.
-
TCGAquery
TCGA 데이터 포털에서 다운로드 받을 샘플을 지정해 준다. TCGA 포털의 데이터는 24개 암종과 6개의 데이터 타입(mRNA, SNP, Protein, miRNA, Methylation, Exome) 그리고, 3개의 임상학적 레포트 타입(임상 테이블, 병리학적 레포트, 이미지 슬라이드)으로 분류된다. TCGA 데이터는 3개의 Level로 구성되며 첫 번째는 원시 데이터(raw data), 두 번째는 분석된 데이터(Processed data), 마지막으로 해석된 데이터(Interpreted data) 이며, TCGAbiolinks는 모든 레벨로 사용자 접근이 가능하다. -
TCGAdownload
TCGAquery에서 제공해주는 샘플의 리스트를 다운로드해 주는 기능이다. -
TCGAprepare
다음 기능인 “Analysis”를 위한 데이터를 준비하기 위한 기능이다. 특히, “SummarizedExperiment”는 GRanges, IRanges, limma, 그리고 edgeR과 같은 Bioconductor 패키지를 쉽게 결합할 수 있도록 해준다.
분석 (Analysis)
#
두 번째 기능은 다른 종류의 분석을 수행하는 기능이다.
-
TCGAnalyze_Clustering: 클러스터링 분석(clustering analysis)
-
TCGAnalyze_DEA: 차등발현 분석
-
TCGAnalyze_EA: 유전자 세트 분석(Enrichment analysis)
시각화 (Visualization)
#
마지막 기능은 앞에 분석결과를 시각화하는 기능이다.
- TCGAvisualize_PCA: 주성분분석(Principal component analysis)
- TCGAvisualize_starburst: starburst plots
- TCGAvisualize_SurvivalCoxNET: survival curves
분석 예제 #
<그림3. TCGA 임상정보와 하위그룹 정보를 이용한 breast carcinoma(BRCA)에서의 통합 분석 예제>
DNET 패키지를 사용하여 유방암에서 생존분석한 결과로 부터 임상정보와 유전자 발현정보를 통합분석한 내용을 나타낸다.
A-D. DAVID를 사용한 유전자 세트 분석결과의 상위 20개에 대한 내용을 나타내며, BP(A,Biological Process), CC(B,Cellular Component), MF(C,Molecular Function), Pathway(D) 별로 나눠서 정리한 결과이다.
E. Kaplan-Meier와 Cox regression 분석에서 유의하게 나온 유전자와 STRING`s 데이터베이스에서 유전자 사이에 연관성을 나타낸다.
참고문헌
#
https://www.rdocumentation.org/packages/TCGAbiolinks/versions/1.2.5
http://bioconductor.org/packages/devel/bioc/vignettes/TCGAbiolinks/inst/doc/tcgaBiolinks.html