Skip to content

Expression profiling #

Find similar titles

3회 업데이트 됨.

Edit
  • 최초 작성자
    Jeong-han Seo
  • 최근 업데이트
    lca

Structured data

Category
Algorithm

개요 #

일반적으로 RNA-Seq을 수행하면 여러 정보를 얻을 수 있다. 대표적으로 Alternative splicing, Known and Novel transcripts, Expression profiling (RNA quantification, Differential Gene Expression), Gene fusion 등을 알 수 있다. 그중에서 NGS 특성 상 read를 통해 expression 분석을 진행하게 되는데 이 때, sequencing depth와 gene, transcript의 길이에 대해 raw count들을 보정한다. 그럼 FPKMRPKM, TPM에 대해서 알아보자.

FPKM #

FPKM은 Fragment Per Kilobase of transcript per Million mapped reads의 약자이다. paired-end RNA-Seq을 진행하면 2개의 read가 하나의 fragment에서 나오는데 transcript 단위에서의 (하나의 gene에서도 여러 isoformtranscript가 존재 가능) expression unit으로 정의할 수 있다. 그러나 이 2개의 read가 반드시 mappable한 것은 아니다.

Image

RPKM #

RPKM은 Reads Per Kilobase of transcript per Million mapped reads의 약자이다. 이는 gene 단위 레벨에서의 expression unit으로 정의할 수 있다. 만약 paired-end 일 경우 mapped read가 2개씩 나올 수 있으므로 그럴 경우에는 FPKM과 RPKM의 값은 2배 차이가 난다. 그러나 FPKM이 RPKM * 2는 아니라는 점을 명심해야 한다. 이에 반해 single-end RNA-seq을 진행할 경우에는 FPKM이나 RPKM이 같은 값을 가지게 된다.

Image

TPM #

TPM은 Transcripts Per Million의 약자이다. RPKM/FPKM과 비슷하지만 RNA 샘플 사이에서 transcript length의 분포까지 포함한 개념이다. 이는 gene의 kb 단위로 read를 scaling 해준다. 그다음에 그 값들을 scale된 total number of read로 나눠준다. 이 방법없이는, 다른 transcript length distribution을 가지는 두 RNA pools를 비교할 때 bias가 생길 수 있다.

Image

Reference #

0.0.1_20230725_7_v68