Skip to content

Posts cBioPortal #
Find similar titles

Structured data

Category
Software

cBioPortal #

소개 #

cBioPortal (http://cbioportal.org)은 다양한 암 유전체 데이터(주로 TCGA)를 직접 분석하고, 별도의 가시화도구를 만들어 제공하는 웹사이트이다. 암종별 유전체 분석 정보로 부터, 유전자 증폭, 변이, 발현변화 뿐아니라, 생존정보 중 임상정보를 함께 분석하고 이를 체계적으로 분석할 수 있는 통합 분석 환경을 제공한다. 잘 정리된 가시화도구들은 각각 간단한 데이터 입력 형식을 갖고 있어서 자신의 데이터도 이 형식으로 변환하면, cBioPortal 인터페이스로 데이터 분석할 수 있다.

Memorial Sloan-Kettering Cancer Center의 전산생물학센터와 Bilkent 대학 컴퓨터공학부의 i-Vis 정보 가시화 연구그룹에서 이 시스템을 개발하고 유지하고 있으며, National Cancer Institute (NCI)와 National Resource for Network Biology (NRNB)의 펀드로 운영되고 있다.

주요기능 #

주요기능은 다음과 같다.

데이터 현황 #

현재, 80개의 암 유전체 연구로 부터 18,469 샘플의 데이터가 제공되고 있다. 각 연구별로 제공되는 데이터의 종류는 다음과 같다.

  1. Copy-number alteration (CNA): 암세포에서의 유전자 증폭을 CNV와 구분하여 CNA라고 함.
  2. Tumor mRNA/miRNA: Microarray 실험을 통해 얻은 발현 정보. 보통 miRNA가 해당 mRNA를 저해하기 때문에 이 비율을 사용한다.
  3. Methylation (HM27)
  4. Protein/phosphoprotein level (RPPA)

현재, 시스템은 3.5.0 버전으로 업데이트되어 운영중이며, 327개의 암 유전체 연구로부터 166,109 샘플의 데이터를 제공하고 있다.

데이터 분류 #

데이터는 PanCancer Studies, Pediatric Studies, Immunogenomic Studies 등 34개의 대분류로 나뉘어 구성되어 있다.

주요 메뉴 #

시스템의 상단에서는 다음과 같은 주요 메뉴를 제공함

Image

Data sets #

데이터 세트를 조회할 수 있는 메뉴로, 암 연구실험(study)과 데이터 타입 별로 목록을 제공

Web API #

데이터베이스를 연계해서 데이터를 이용할 수 있는 API를 제공

R/Matlab #

R이나 Matlab에서 데이터를 연계하여 이용할 수 있는 API를 제공

Tutorials and Webinars #

cBioPortal를 이용하는데 도움이 될 영상과 가이드를 제공

FAQ #

자주 묻는 질문에 답변 정보를 제공

NEWS #

시스템 업데이트 내역 등의 소식을 제공

Visualize Your Data #

사용자가 자신의 데이터를 시각화할 수 있는 기능을 제공 (로컬버전의 시스템을 GitHub를 통해 다운로드할 수 있게 함)

About #

시스템을 구축하고 운영하는 사람들에 대한 소개

cBioPortal Installations #

cBioPortal의 로컬 버전을 다운로드 할 수 있는 지역 정보를 제공

인덱스 메뉴 #

시스템에 접속 시 다음과 같은 인덱스 메뉴(메인페이지의 컨텐츠 부분에서 제공하는 기능)를 제공함

Image

Query #

시스템의 데이터를 연구실험 단위 목록으로 제공하며 원하는 검색어로 데이터를 검색할 수 있는 기능도 제공

Quick Search #

이전에는 없던 기능으로, 특정 검색어를 입력하여 검색어와 연관된 데이터를 검색하여 제공하는 기능도 제공. 위의 Query에서 검색을 했을 때와의 차이점은 Query의 검색은 연구실험을 대상으로 하는 데이터를 검색이고 Quick Search에서의 검색은 연구실험과 함께 환자정보 등 시스템 전체를 대상으로 하는 통합검색

Download #

데이터를 다운로드 할 수 있는 기능인데 현재는 제공하지 않고 있음. Query 메뉴에서 관심 있는 정보를 찾아 해당 페이지 내에서 다운로드 하는 것을 권유하고 있음

분석 사례 #

웹사이트 첫 화면에서 유전자 목록을 입력하면 바로 해당 유전자들의 분석 결과를 볼 수 있다. 아래 스크린샷은 쿼리를 입력하는 예를 보여준다.

Image *출처 : https://docs.google.com/a/insilicogen.com/uc?id=0B9sr67VMfb9tZHJnNG1nbXJ5YkU&export=download

"Select Cancer Study"를 통해서 80개 암 유전체 연구중 하나를 선택할 수 있으며, "Select Patient/Case Set"을 통해서 전체 Tumor 샘플을 이용할지 일부 서브그룹을 이용할지를 선택할 수 있다. 친절하게도 자주 사용되는 Gene Set을 "Enter Gene Set"를 클릭하여 한번에 입력할 수 있다. 위 그림의 예에서는 RTK signaling family 유전자들 16개를 한번에 입력하고 있다. "Submit"을 클릭하면 다음과 같은 상세 분석결과를 볼 수 있다.

OncoPrint #

본 시스템 개발 그룹에서 자체적으로 개발한 가시화 도구로 전체 샘플의 유전자별 변이 현황을 한눈에 보여준다.

Image *출처 : https://docs.google.com/a/insilicogen.com/uc?id=0B9sr67VMfb9tRHhkdkNxMkZKUHc&export=download

각각의 회색막대는 각 샘플을 의미하며, 증폭되었을 때 붉은색으로 표시하고 있다. 전체 825개의 샘플중 16%에서 ERBB2 유전자변이(증폭)가 있음을 한눈에 알 수 있다. (실제로 ERBB2 유전자가 증폭되는 샘플을 HER2 그룹이라고 하며, 맞춤치료를 위해 Herceptin이라는 약물을 투여할 수 있다.) 그림의 범주에서 알 수 있듯이 암 유전자 변이의 주요한 원인은 SNV mutation 보다 증폭(amplification)이다. (더욱 강조한 그림이니까)

Plots #

유전자별 발현량을 Box plot으로 표시한다.

Image *출처 : https://docs.google.com/a/insilicogen.com/uc?id=0B9sr67VMfb9tWmZwQ01uQzFfMFE&export=download

CNA, 즉 CNV 실험에 의해 얻은 증폭 여부([GISTIC]] 프로그램이 사용됨, 크게 5가지로 구분한 값을 결과로 제공함)별로 실제 mRNA 발현량을 그림으로 보여주고 있다. 그림에서 볼 수 있듯이, 실제 DNA가 amplification 되면 mRNA 발현량도 늘어난다.

Mutations #

유전자별 SNV 변이정보를 도메인정보와 함께 보여준다.

Image *출처 : https://docs.google.com/a/insilicogen.com/uc?id=0B9sr67VMfb9tR2F6UW5wVjlKcVk&export=download

샘플별로 보고된 다양한 변이정보들을 확인할 수 있다. 특이한 점은 Mutation Assessor 항목을 통해 해당 변이가 미치는 영향을 가늠해 볼 수 있다는 점이다.

Co-Expression #

유전자들 사이의 관계를 알아볼 수도 있다. 본 기능을 통해 특정 유전자 (ERBB2)와 가장 발현 패턴이 유사한 유전자를 찾아볼 수 있고 이를 Scatter plot으로 확인할 수 있다.

Image *출처 : https://docs.google.com/a/insilicogen.com/uc?id=0B9sr67VMfb9tQ09BUkZsbXN1WHc&export=download

두 유전자의 상관관계를 Pearson과 Spearman correlation으로 표기해서 보여준다.

Survival #

유전자변이 유무에 따라 그룹을 나누고, 두 그룹간의 생존분석(Survival analysis)을 수행하고 생존차트를 표시한다.

Image *출처 : https://docs.google.com/a/insilicogen.com/uc?id=0B9sr67VMfb9tZUNrMkc5ak1vMGc&export=download

위 그림은 변이가 있는 그룹이 없는 그룹에 비해 더 생존한다고 보여준다. (그룹의미가 부족한 듯. 별도의 그룹을 정할 수 있는 기능이 필요해보인다.)

Network #

유전자들의 관련 네트워크를 네트워크상 해당 유전자들이 어떻게 연결되어 있는지를 확인한다.

Image *출처 : https://docs.google.com/a/insilicogen.com/uc?id=0B9sr67VMfb9tZThyVldJUDJaVjg&export=download

유전자변이가 많은 노드일수록 붉은색으로 표시되며, 표시하고자 하는 노드를 변이여부로 한정지을 수 있다. 노란색 육각형은 해당 유전자를 타겟하는 약물을 의미한다.

에필로그 #

cBioPortal은 현존하는 암 유전체 프로젝트 데이터의 분석결과를 가장 잘 가시화하여 보여주는 웹사이트로 평가받고 있다. 자신이 연구중인 유전자 혹은 관련 네트워크가 암종별로 암 연구별로 어떤 변이들이 보고되어 있고, 어떤 관련들을 지니고 있는지 통합적으로 확인해볼 수 있다. 또한 자신의 연구 결과를 등록하는 기능도 있는데 사이트에서 추천하는 방법으로 분석 후, 분석 결과를 등록하여 결과를 확인할 수 도 있다. 암 유전체 연구를 위한 좋은 온라인 도구로 계속해서 각광을 받고 있다.

Incoming Links #

Related Articles #

Related Bioinformaticses #

Suggested Pages #

Other Posts #

0.0.1_20140628_0