Skip to content

R (프로그래밍 언어) Bioconductor DEGseq #
Find similar titles

Structured data

Category
Software

DEGseq #

Introduction #

R은 그동안 수많은 발전을 거듭해오면서 많은 사용자의 사랑을 받았다. 특히, 생물정보학과 관련된 일을 하는 사람이라면 적어도 그 필요성을 인지하고 있을 것이다. R을 기반으로 하는 Bioconductor는 수많은 라이브러리를 갖고 있다. 그 중 DEGseq은 차등 발현하는 유전자(Differentially Expressed Gene)를 찾는 유용한 방법 중 한 가지다.

Install & Download #

사용자의 컴퓨터에 R이 설치되어있다면 굳이 다운로드 하지 않고 R 안에서 아래의 명령어로 바로 설치가 가능하다. 사용자의 컴퓨터가 MAC 인 경우는 XQuartz 설치가 필요하다.

>source("http://bioconductor.org/biocLite.R")
>biocLite("DEGseq")

설치가 완료됐다면, 라이브러리 호출 명령어가 잘 동작하는지 확인한다.

>library(DEGseq)

Tutorial #

DEG 분석의 기본 개념은 1:1 샘플 간 차등 발현 유전자를 밝히는 것이다. 따라서, 두 샘플간 비교를 통해 DEG 분석을 진행한다.

분석에 사용되는 정보는 샘플안에 존재하는 유전자(혹은 전사체)별 발현량을 나타낸 테이블형식의 파일이다. 예를 들면 아래와 같은 형식의 파일이다.

Genes Sample_01 Sample_02
Gene_01 10.1 3.2
Gene_02 8.2 9.2
Gene_03 0.42 0.92

발현량 테이블파일이 준비됐다면 분석을 위한 모든 준비를 마친 것이다. 우선, 준비한 파일이 위치하고 있는 폴더로 R의 작업 디렉토리를 변경한다.

>getwd() # 현재 R의 작업 디렉토리 출력
>setwd("C:/user/DEGseq") # 작업 디렉토리 변경
>dir() # 변경한 작업 디렉토리 내에 존재하는 파일리스트 출력

이제 본격적으로 DEGseq을 사용한 분석을 진행한다. 발현량테이블파일의 이름을 "RPKM_table.txt" 라고 가정하고 진행한다. 사용할 함수는 readGeneExp 함수이다. 이 함수를 통해 발현량테이블파일의 정보 중 유전자 이름, 샘플들의 발현량 정보가 몇 번째 열인지 설정 할 수 있다.

>sample01ExpMatrix <- readGeneExp(file = "RPKM_table.txt", geneCol=1, valCol=c(2))
>sample02ExpMatrix <- readGeneExp(file = "RPKM_table.txt", geneCol=1, valCol=c(3))

readGeneExp 명령어의 인수 중 geneCol은 참고되는 유전자의 이름이 첫 번째 열의 값이다라는 것을 알려주는 것이며, valCol은 샘플의 발현량이 위치한 열의 인덱스를 알려주는 것이다. 만약 Sample_01이 타임테이블로 구성되어 두개 이상의 열을 가진다면, valCol=(2:3) 으로 변경하면 된다.

>sample01ExpMatrix <- readGeneExp(file = "RPKM_table.txt", geneCol=1, valCol=c(2:3)
>sample02ExpMatrix <- readGeneExp(file = "RPKM_table.txt", geneCol=1, valCol=c(3:4))

DEGseq 에서 제공하는 plot 들을 출력하기 위한 layout 을 설정한다. 이번 튜토리얼에서 출력될 plot 은 5가지로 3행 2열의 layout 을 설정했다.

>layout(matrix(c(1,2,3,4,5,6), 3, 2, byrow= TRUE))
>par(mar=c(2,2,2,2))

준비된 Matrix 들을 이용해 DEG 계산을 수행하는 명령어를 실행한다.

>DEGexp(geneExpMatrix1 = sample01ExpMatrix, geneCol1 = 1, expCol1 = c(2), groupLabel1 = "Sample01", geneExpMatrix2 = sample02ExpMatrix, geneCol2 = 1, expCol2 = c(2), groupLabel2 = "Sample02", method = "MARS")

DEGseq 에서 제공하는 method는 "LRT", "CTR", "FET", "MARS", "MATR", "FC"로 다양하다. 이 중 "MARS"는 5개의 figure 를 제공하며 p-value, q-value, z-value 등 다양한 통계치를 통해 DEG 여부를 분석한다.

  • "LRT": Likelihood Ratio Test (Marioni et al. 2008)
  • "CTR": Check whether the variation between Technical Replicates can be explained by the random sampling model (Wang et al. 2009)
  • "FET": Fisher's Exact Test (Joshua et al. 2009)
  • "MARS": MA-plot-based method with Random Sampling model (Wang et al. 2009)
  • "MATR": MA-plot-based method with Technical Replicates (Wang et al. 2009)
  • "FC" : Fold-Change threshold on MA-plot.

위의 명령어를 수행했다면 기존에 설정한 layout 에 figure 를 볼 수 있다. 만약, DEGexp 함수에 output 인수를 추가해 실행한다면, figure와 결과 table 을 제공 받을 수 있다.

>DEGexp(geneExpMatrix1 = sample01ExpMatrix, geneCol1 = 1, expCol1 = c(2), groupLabel1 = "Sample01", geneExpMatrix2 = sample02ExpMatrix, geneCol2 = 1, expCol2 = c(2), groupLabel2 = "Sample02", method = "MARS", output="output")

Reference #

1 http://rgm3.lab.nig.ac.jp/RGM/R_rdfile?f=DEGseq/man/DEGexp.rd&d=R_BC
2 http://bioconductor.org/packages/2.6/bioc/manuals/DEGseq/man/DEGseq.pdf

Suggested Pages #

0.0.1_20140628_0