Skip to content

Seurat #
Find similar titles

Structured data

Category
Analysis

Seurat #

Single cell gene expression #

인간의 조직이나 기관, 질병의 상태에 대한 유전자의 발현 차이를 측정하기 위한 방법으로 우리는 대개 microarray 이나 RNAseq과 같은 다양한 방법을 통해 수행하고 있다. 이 방법들은 일반적으로 수백에서 수만의 cell을 입력으로 하는 bulk 단위로 전체 cell population 내에서 평균적인 값을 이용하여 유전자의 발현을 측정하곤 한다.

그러나, cancer 이나 infectious disease와 같은 neuroscience, immunology 를 다루는 복잡한 생물학적 과정에서는 매우 다양한 각각의 셀들이 포함되어 있어 cell fate, function 등에 대한 작용이 있는 것으로 알려져 있다.

이러한 다양한 셀 단위를 처리하기 위해서 일반적인 bulk 단위의 발현 측정으로는 제한된 정보만을 얻을 수 있으며 각 셀 단위의 측정치는 얻을 수 없다.

Image

이미지 참조 : https://www.10xgenomics.com/solutions/single-cell

최근에 single cell transcriptome 기술 등을 통한 10X genomics 와 같은 플랫폼의 도입으로, single cell gene expression을 측정할 수 있게 되었다.

이는 single cell 레벨에서 유전자의 발현을 직접적으로 측정할 수 있고, intracellular population의 heterogeneity를 확인할 수 있으며 각 cell type마다 독특한 발현 패턴을 가지고 있기 때문에 cell 내의 subtype을 구분할 수 있다. 다음과 같은 논문에서도 마우스 심장 non-myocyte cell type을 single cell RNAseq 방법을 이용하여 구분하였다.

Image

이미지 참조 : https://doi.org/10.1016/j.celrep.2017.12.072

10X genomics #

Microfluidic platform을 활용하여 개발한 GemCode technology를 적용시킨 Chromium System을 취급하는 회사로 각각의 single cell 내의 mRNA에 고유 barcode (>10,000 barcodes)를 부여한 뒤, cell 내의 transcripts에 대한 3’ RNA NGS library를 구성하는 system이다. High-throughput single cell의 transcripts profiling, transcripts expression level 분석을 진행할 수 있다.

Image

이미지 참조 : http://cgs.hku.hk/portal/index.php/single-cell-10x-genomics/technical-details

Cell isolation 과정을 통해 각 cell 단위로 나누고, 8-channel microfluidics chip으로 gell beads 와 cell, 시약으로 Emulsion 상태의 GEM을 구성한다. Gell beads 에는 Read1, 10x 바코드, UMI, PolyDT 가 붙어 있어 세포용해 시에 cDNA를 붙여 바코딩화된다.

Image

이미지 참조 : https://www.nature.com/articles/ncomms14049

Cell 바코딩화를 통해 해당 cell 간의 그룹핑이 가능하며, 각 cell 들은 mRNA 에 해당하는 고유 바코드에 의해서 cell에 포함되는 유전자의 count를 UMI(Unique Molecular Identifier)로 형태로 얻음으로써 어떠한 유전자들이 얼마나 포함되어 있는가를 확인할 수 있다.

Image

이미지 참조 : https://www.cell.com/abstract/S0092-8674(15)00549-8

CellRanger #

CellRanger는 10X genomics에서 생산된 Chromium scRNA의 Sequencing 데이터를 분석할 수 있는 파이프라인으로 크게 4가지 프로그램으로 구성되어 있다.

Image

이미지 참조 : https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/what-is-cell-ranger

 1. cellranger mkfastq
 scRNA 에 대해 illumina sequencer로부터 주로 생산되는 raw base call(BCL) 파일을 생물정보에서 흔하게 사용되는 FASTQ 파일 형식으로 변환하는 프로그램이다. 이 프로그램을 수행하게 되면 I1_001.fastq.gz(Index file), R1_001.fastq.gz, R2_001.fastq.gz 파일이 각각 이후 분석을 위해 생성된다.

 2. cellranger count
 cellranger에서 가장 핵심적인 프로그램으로, 앞서 cellranger mkfastq 결과를 input으로 하여 alignment, filtering, barcode 및 UMI counting을 통해 cell-to-gene에 대한 matrix 파일을 구성할 수 있으며 각 cell들간의 각 유전자의 발현 값을 바탕으로 그룹핑이 되어 Loupe cell browser 프로그램을 이용해 해당 샘플의 cell clustering을 시각적으로 확인할 수 있다.

 3. cellranger aggr
 각 샘플별 cellranger count 수행한 결과를 input으로 하여 원하는 샘플들의 결과를 하나로 합칠 수 있는 프로그램이다. 대개 비교하고자 하는 그룹의 샘플들의 cellranger count 결과를 하나로 합쳐 각 그룹간의 cell clustering을 비교할 수 있다.

 4. cellranger reanalyze
 cellranger count 혹은 cellranger aggr 프로그램을 원하는 옵션에 맞게 재실행할 수 있는 프로그램이다.

Seurat #

Seurat 은 single-cell RNA 데이터를 분석할 수 있는 R package 중 하나로, scRNA의 QC, analysis, clustering, annotation 등을 통해 각 샘플별로 CELL Type을 구분하고 해석할 수 있다. 최근 single-cell RNA 논문에서 monocle과 함께 citing 되어 주로 사용되고 있으며 tutorial이 따라하기 쉽도록 제공된다(아래 reference 참고)

 library(dplyr)
 library(Seurat)

 ### import input_data(cellranger count output과 동일) ###
 pbmc.data <- Read10X(data.dir = "filtered_gene_bc_matrices/hg19/")

 ### setup the seurat object ###
 pbmc <- CreateSeuratObject(counts = pbmc.data, project = "pbmc3k", min.cells = 3, min.features = 200)

 ### Preprocessing(QC) ###
 : Low quality cell, mitochondria genome percent check
 pbmc[["percent.mt"]] <- PercentageFeatureSet(object = pbmc, pattern = "^MT-")

 ### normalizing the data ###
 pbmc <- NormalizeData(object = pbmc, normalization.method = "LogNormalize", scale.factor = 10000)

 ### identification of highly variable features ###
 pbmc <- FindVariableFeatures(object = pbmc, selection.method = "vst", nfeatures = 2000)

 ### scaling data ###
 all.genes <- rownames(x = pbmc)
 pbmc <- ScaleData(object = pbmc, features = all.genes)

 ### perform linear dimensional reduction ###
 pbmc <- RunPCA(object = pbmc, features = VariableFeatures(object = pbmc))

 ### determine the "dimensionality" of the dataset
 pbmc <- JackStraw(object = pbmc, num.replicate = 100)
 pbmc <- ScoreJackStraw(object = pbmc, dims = 1:20)

 ### cluster the cells ###
 pbmc <- FindNeighbors(object = pbmc, dims = 1:10)
 pbmc <- FindClusters(object = pbmc, resolution = 0.5)

 ### Run non-linear dimensional reduction(tSNE) ###
 pbmc <- RunUMAP(object = pbmc, dims = 1:10)
 DimPlot(object = pbmc, reduction = "umap")

 ### Finding differentially expressed features(biomarkers) ###
 pbmc.markers <- FindAllMarkers(object = pbmc, only.pos = TRUE, min.pct = 0.25, logfc.threshold = 0.25)

Image

이미지 참조 : https://satijalab.org/seurat/v3.0/pbmc3k_tutorial.html

reference #

  1. 10XGenomics : https://www.10xgenomics.com/solutions/single-cell/
  2. Seurat tutorial : https://satijalab.org/seurat/pbmc3k_tutorial.html
  3. Monocle tutorial : http://cole-trapnell-lab.github.io/monocle-release/docs/#installing-monocle
  4. Zheng, G. X. Y. et al. Massively parallel digital transcriptional profiling of single cells. Nat. Commun. 8, 14049 doi: 10.1038/ncomms14049 (2017).
  5. Macosko, E. Z., Basu, A., Satija, R., Nemesh, J., Shekhar, K., Goldman, M., … McCarroll, S. A. (2015). Highly Parallel Genome-wide Expression Profiling of Individual Cells Using Nanoliter Droplets. Cell, 161(5), 1202–1214. https://doi.org/10.1016/j.cell.2015.05.002
  6. Getting started with Seurat : https://davetang.org/muse/2017/08/01/getting-started-seurat/
0.0.1_20140628_0