GENECODE
#
Find similar titles
- 최초 작성자
-
최근 업데이트
aycho@insilicogen.com
Structured data
- Category
- Analysis
Table of Contents
The GENECODE v7 catalog of human long noncoding RNAs: Analysis of their gene structure, evolution, and expression #
연구목적 #
ENCODE project의 한 파트인 GENECODE consortium에서 long noncoding RNA에 대한 annotation분석
연구배경 #
① NGS의 발달로 인해 유전자에 대한 패러다임이 변하고 있음
② 이전에 protein coding 유전자에 대한 중점 연구로부터 long noncoding RNA의 중요성이 부각되고 있음
③ lncRNA의 질병 관련성 및 조절 기전에서의 중요성이 보고되고 있지만 대규모의 분석은 이루어지지 않고 있음
④ 2012년 GENECODE v7 catalog를 release 하였으며, 2015년 8월 현재 GENECODE 23(human), M6(mouse)가 release되었음 (http://www.gencodegenes.org/)
연구결과 #
Identification and initial categorization of lncRNAs in the GENECODE gene annotation
① 본 연구에 사용된 lncRNA는 2012는 GENECODE consortium에서 발표된 15,512개의 lncRNA를 대상으로 함
② lncRNA는 i) antisense RNAs (n=3,233), ii) intergenic 영역에 존재하는 lincRNA (n=5,094), iii) intron 영역에 존재하는 intronc lncRNA (n=378), iv) coding 유전자을 둘러싸는 overlapping RNA 등으로 분류됨, v) processed transcript (n=935) (Figure 1A)
③ 길이가 200bp 보다 적거나 protein-coding exon과 같은 방향으로 겹치는 exon이 존재하는 transcript는 모두 제거하고 14,880 transcript만 대상으로 함
④ 대부분의 (n=9,518) lncRNA는 protein-coding 유전자와 겹치지 않는 lincRNA이고 나머지 5,362 lncRNA의 분류는 Figure 1B와 같음
LncRNAs do not show evidence of protein-coding potential
① lncRNA의 coding potential을 분석하기 위해 기존에 알려진 protein-coding 유전자의 coding potential과 비교한 결과 Figure 2A에서 보는 바와 같이 protein coding 유전자와 lncRNA의 coding potential은 극명한 차이를 보임
② Mass spectrometry(MS) 결과와 비교하였을 때 350개의 peptide가 111개의 lncRNA와 match되었고, 나머지 대부분의 lncRNA의 단백질 발현은 관측되지 않았음
The majority of GENCODE lncRNAs are independent transcriptional units
① lncRNA가 독립적인 전사 unit을 가졌는지 아니면 근처의 protein coding 유전자의 전사 기전에 종속적인지 여부를 알고자 CAGE(cap analysis gene expression) tag를 활용하였음
② 15%의 lncRNA의 5’ end를 CAGE에서 찾았으며 이는 55%의 protein coding 유전자 5’end에 비해 낮았음
③ 하지만 이러한 차이가 낮은 발현량에 기인할 수도 있으므로 CAGE tag를 발현량에 따라 분류하였을 때, 각 발현 bin에서는 protein-coding 유전자보다 lncRNA의 coverage가 15% 가량 낮았음
④ 유전자의 5’, 3’ end를 분석하는 RNA paired-end ditag(PET)의 경우 protein-coding 유전자의 30%, lncRNA의 10%를 발견하였으며 발현량에 따라 분류한 경우에는 CAGE와 비슷하게 protein-coding 유전자보다 lncRNA의 coverage가 15%가량 낮았음
⑤ lncRNA에 polyA tail이 존재하는지 여부를 분석하였을 때, 39%의 lncRNA에서 polyA가 발견되었고 protein-coding 유전자에서는 51%가량이 발견되었음
⑥ lncRNA의 전사 기전이 protein-coding 유전자의 전사 기전에 종속적인지 여부를 알아내기 위해 paired-end (PE) read를 이용하여 protein-coding 유전자와 lncRNA가 PE 내에 공존하는지를 분석한 결과 9%의 lncRNA가 이러한 경향을 보였으며 오히려 protein-coding 유전자가 이웃 protein-coding 유전자와 PE내에 공존하는 경우가 17%에 달함
LncRNAs have unusual exonic structure, but exhibit standard canonical splice site signals, and alternative splicing
① 대부분의 (98%) lncRNA는 splicing되며, 대부분의 (42%) lncRNA는 2개의 exon으로 이루어져 있고 이는 protein-coding 유전자의 6% 만이 2개의 exon으로 이루어져 있는 것에 비해 큰 차이를 보임 (Figure 3A)
② lncRNA의 exon은 protein-coding 유전자에 비해 다소 길었으며, 전체 길이는 protein-coding 유전자에 비해 짦았음 (Figure 3B)
③ 가장 긴 lncRNA인 NEAT1는 22.7kb에 달하며 이는 nuclear paraspeckles형성에 관여하는 것으로 알려짐
④ 25%이상의 lncRNA가 isoform을 갖고 있었으며 PCBP1-AS1는 40개의 isoform을 가지는 것으로 나타남
⑤ 대부분의 lncRNA는 canonical splice site인 GT-AG를 갖고 있었음
Human lncRNAs are under weaker selective constraints than protein-coding genes, and many are primate specific
① lncRNA는 protein-coding 유전자에 비해 낮은 conservation을 보임 (Figure 4A)
② lncRNA는 exon보다는 promoter쪽에 protein-coding 유전자만큼 잘 conservation되어 있었음
③ ~30%의 lncRNA가 primate-specific이었으며, primate에서 더 많은 lncRNA가 발견됨 (Figure 4C)
④ 종간 다른 서열이 있다고 하더라도 loop structure를 예측하였을 때 구조는 유지되는 것을 발견함 (Figure 4D)
Some lncRNAs may be post-processed into smaller RNAs, particularly snoRNAs
① 많은 lncRNA는 functional small RNA의 precursor이기도 함
② 7% protein-coding 유전자의 boundary내에 27%의 small RNA (tRNA, miRNA, snRNA, snoRNA)가 발견된 반면, 4%의 lncRNA의 boundary내에 5%의 small RNA에 발견됨
③ lncRNA의 exon에 snRNA을 제외한 모든 종류의 small RNA가 포함되어 있었으며 특히, snoRNA는 다른 종류의 small RNA보다 6배 가량 많이 존재하였음
LncRNAs show lower and more tissue-specific expression than protein-coding genes
① 각 조직 별 lncRNA와 protein-coding 유전자의 발현 패턴을 분석한 결과, Figure 5A에서 나타나는 바와 같이 전 조직에서 lncRNA의 발현이 protein-coding 유전자에 비해 낮았음
② Testis에는 다른 조직에 비해 lncRNA의 발현이 상대적으로 높았음 (Figure 5A)
③ protein-coding유전자의 대부분이 (65%) 모든 조직에서 발견된 반면 lncRNA의 11%만이 모든 조직에서 발견되었으며 11%는 한 종류의 조직에서만 발견되었음
Mapping lncRNA expression in the human body by custom microarray
① 마이크로어레이 데이터를 이용하여 lncRNA의 발현을 분석한 결과, lncRNA의 발현량이 protein-coding protein의 발현량에 비해 현저하게 낮은 것을 발견함 (Figure 6B)
② 31개의 세포 내 lncRNA의 발현을 clustering한 결과 brain와 그 외 조직으로 나뉘었으며 brain-specific cluster가 40%가량 차지하였고 이 중 이미 알려진 lncRNA의 발현도 발견되었음
Correlations of expression between lncRNAs/mRNAs genes reveal potential subclasses of interactions
① lncRNA와 protein-coding 유전자의trans-acting (i.e., distance>1M) 관련성을 분석하기 위해 발현량의 pairwise correlation을 산출한 결과 lncRNA는 protein-coding 유전자와 positive 관련성이 관측되었고 이러한 현상은 protein-coding 유전자 간에서도 관측되었음
② lncRNA는 protein-coding 유전자에 대해 r>0.9의 extreme positive 관계성을 보이는 경우가 protein-coding 유전자 간 비교에 비해 현저하게 높았음. 이러한 현상은 tissue-specific 유전자의 발현 패턴에 기인하는 것으로 보임
③ lncRNA와 neighboring 유전자의 cis-acting 관련성을 분석한 결과, 20kb 이내 neighboring 유전자와 positive 관계성이 2.95%의 lncRNA에서 발견되었음
④ overlapping 유전자와 lncRNA의 발현 관계성을 분석한 결과 lncRNA가 exonic antisense인 경우 host 유전자의 발현과 상당히 positive 관계성이 있는 것으로 관측됨
LncRNAs are enriched in the nucleus
① 많은 lncRNA는 chromatin에 recruit되는 것으로 알려져 있으며 Figure 8B 에서 나타나는 것과 같이 lncRNA는 nucleus에 많이 존재함
② 이미 알려진 lncRNA의 발현도 nucleus에서 더 많이 관측됨
③ 228 lncRNA가 nucleus에서 많이 분포하는 반면 53개의 lncRNA 만이 cytoplasm에서 발견되었음