Skip to content

차등발현 유전자 발현량 계산방법 (책 발간용 글 편집 및 수정) #
Find similar titles

Structured data

Category
Analysis

차등발현 유전자 발현량 계산방법 #

RNA-seq을 통해 mapping되어 있는read의 수를 가지고 각 샘플의 유전자별 혹은 transcript별로 발현 정도를 확인 할 수 있다. 하지만 mapping된 read의 개수로 발현량을 정의하기에는 샘플별로 시퀀싱 데이터 크기가 다를 수도 있고, 유전자나 transcript의 길이에 따라 mapping된 read의 수도 다르기 때문에 객관적인 값이라고 보기 힘든면이 있다.
그렇기 때문에 차등발현 유전자의 발현값 계산은 이러한 오차를 줄여 조금 더 객관적인 값을 보여줄 수 있도록 정규화(normalization)를 하도록 만들어졌다.
이 페이지에서는 가장 많이 사용 되는 FPKM, RPKM, TPM 값을 계산하는 방법을 소개하고자 한다.

FPKM #

Fragments Per Kilobase of transcript per Million의 약자로 transcript당 fragment의 수를 이용하여 발현값을 계산한 것이다. Paired-end read의 경우 한 쌍의 read가 하나의 fragment를 이루는데 따라서 FPKM은 paired-end read의 RNA-seq 분석에 사용할 수 있다.

Image

[출처 : https://haroldpimentel.wordpress.com/2014/05/08/what-the-fpkm-a-review-rna-seq-expression-units/]

위식에서 N은 총 read의 개수이며, X는 해당하는 transcript(혹은 gene)에 mapping된 read개수를 말하며, 분모의 l은 transcript(혹은 gene)의 길이를 의미한다. 이 공식을 이용하면 시퀀싱이 많이 되었던 적게되었던 해당 transcript(혹은 gene)의 길이가 길던 짧던 객관적인 값을 얻을 수 있다.

RPKM #

전체 시퀀싱 read개수로 보정을 한 다음 해당하는 transcipt(혹은 gene)의 길으로 보정하는 방법은 FPKM과 같다. 다만 FPKM은 fragment가 기준이며 RPKM은 read가 기준인 점이 다르다. 즉, paired-end의 경우 두 개의 read가 한 fragment를 이루므로 FPKM에서는 하나라고 간주하는 값을 RPKM에서는 2로 본다는 것이다. 즉 RPKM은 FPKM값의 두배이다.

Image

[출처 : http://www.plant.osakafu-u.ac.jp/~kimura/PLAGO_process.html]

TPM #

TPM은 위의 FPKM이나 RPKM처럼 객관적인 값을 얻을 수 있으나, trancript(혹은 gene)단위를 처음 기준으로 한다는 것이 다르다. 따라서 먼저 transcript(혹은 gene)길이로 보정하여 RPK값을 구한 다음 그 RPK를 전부 더한 값으로 나눠주는 것이 TPM이다.

Image

[출처 : https://haroldpimentel.wordpress.com/2014/05/08/what-the-fpkm-a-review-rna-seq-expression-units/]

동영상자료 #

아래의 동영상은 RPKM 과 TPM을 알기 쉽게 설명해 놓은것이다. 실제 같은 값을 이용하여 정규화 계산 방법의 차이를 알 수 있으며, 결과의 차이도 확인을 할 수 있다. 이 글을 쓰면서 많이 참고했던 자료로 큰 도움이 될 것이다.

Suggested Pages #

0.0.1_20140628_0