Expression profiling
#
Find similar titles
- 최초 작성자
- 최근 업데이트
Structured data
- Category
- Algorithm
개요 #
일반적으로 RNA-Seq을 수행하면 여러 정보를 얻을 수 있다. 대표적으로 Alternative splicing, Known and Novel transcripts, Expression profiling (RNA quantification, Differential Gene Expression), Gene fusion 등을 알 수 있다. 그중에서 NGS 특성 상 read를 통해 expression 분석을 진행하게 되는데 이 때, sequencing depth와 gene, transcript의 길이에 대해 raw count들을 보정한다. 그럼 FPKM과 RPKM, TPM에 대해서 알아보자.
FPKM #
FPKM은 Fragment Per Kilobase of transcript per Million mapped reads의 약자이다. paired-end RNA-Seq을 진행하면 2개의 read가 하나의 fragment에서 나오는데 transcript 단위에서의 (하나의 gene에서도 여러 isoform의 transcript가 존재 가능) expression unit으로 정의할 수 있다. 그러나 이 2개의 read가 반드시 mappable한 것은 아니다.
RPKM #
RPKM은 Reads Per Kilobase of transcript per Million mapped reads의 약자이다. 이는 gene 단위 레벨에서의 expression unit으로 정의할 수 있다. 만약 paired-end 일 경우 mapped read가 2개씩 나올 수 있으므로 그럴 경우에는 FPKM과 RPKM의 값은 2배 차이가 난다. 그러나 FPKM이 RPKM * 2는 아니라는 점을 명심해야 한다. 이에 반해 single-end RNA-seq을 진행할 경우에는 FPKM이나 RPKM이 같은 값을 가지게 된다.
TPM #
TPM은 Transcripts Per Million의 약자이다. RPKM/FPKM과 비슷하지만 RNA 샘플 사이에서 transcript length의 분포까지 포함한 개념이다. 이는 gene의 kb 단위로 read를 scaling 해준다. 그다음에 그 값들을 scale된 total number of read로 나눠준다. 이 방법없이는, 다른 transcript length distribution을 가지는 두 RNA pools를 비교할 때 bias가 생길 수 있다.
Reference #
- Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation
- Mapping and quantifying mammalian transcriptomes by RNA-Seq
- An Introduction to Studying Expression Data Through RNA-seq
- StatQuest: RPKM, FPKM and TPM
- Measurement of mRNA abundance using RNA-seq data: RPKM measure is inconsistent among samples