Skip to content

Seurat #
Find similar titles

Structured data

Category
Analysis

Seurat #

Single cell gene expression #

인간의 조직이나 기관, 질병의 상태에 대한 유전자의 발현 차이를 측정하는 방법으로 우리는 대개 microarray 이나 RNAseq과 같은 다양한 방법을 통해 수행하고 있다. 이 방법들은 일반적으로 수백에서 수만의 cell을 입력으로 하는 bulk 단위로 전체 cell population 내에서 평균적인 값을 이용하여 유전자의 발현을 측정하곤 한다.

그러나 cancer나 infectious disease와 같은 neuroscience, immunology를 다루는 복잡한 생물학적 과정에서는 매우 다양한 각각의 셀들이 포함되어 있어 cell fate, function 등에 대한 작용이 있는 것으로 알려져 있다.

이러한 다양한 셀 단위를 처리하기 위해서 일반적인 bulk 단위의 발현 측정으로는 제한된 정보만을 얻을 수 있으며 각 셀 단위의 측정치는 얻을 수 없다.

Image

이미지 참조 : https://www.10xgenomics.com/solutions/single-cell

최근에 single cell transcriptome 기술 등을 통한 10X genomics와 같은 플랫폼의 도입으로, single cell gene expression을 측정할 수 있게 되었다.

이는 single cell 레벨에서 유전자의 발현을 직접적으로 측정할 수 있고, intracellular population의 heterogeneity를 확인할 수 있으며 각 cell type마다 독특한 발현 패턴을 가지고 있으므로 cell 내의 subtype을 구분할 수 있다. 다음과 같은 논문에서도 마우스 심장 non-myocyte cell type을 single cell RNAseq 방법을 이용하여 구분하였다.

Image

이미지 참조 : https://doi.org/10.1016/j.celrep.2017.12.072

10X genomics #

Microfluidic platform을 활용하여 개발한 GemCode technology를 적용한 Chromium System을 취급하는 회사로 각각의 single cell 내의 mRNA에 고유 barcode (>10,000 barcodes)를 부여한 뒤, cell 내의 transcripts에 대한 3’ RNA NGS library를 구성하는 system이다. High-throughput single cell의 transcripts profiling, transcripts expression level 분석을 진행할 수 있다.

Image

이미지 참조 : http://cgs.hku.hk/portal/index.php/single-cell-10x-genomics/technical-details

Cell isolation 과정을 통해 각 cell 단위로 나누고, 8-channel microfluidics chip으로 gell beads와 cell, 시약으로 Emulsion 상태의 GEM을 구성한다. Gell beads에는 Read1, 10x 바코드, UMI, PolyDT 가 붙어 있어 세포 용해 시에 cDNA를 붙여 바코딩화된다.

Image

이미지 참조 : https://www.nature.com/articles/ncomms14049

Cell 바코딩화를 통해 해당 cell 간의 그룹핑이 가능하며, 각 cell 들은 mRNA에 해당하는 고유 바코드에 의해서 cell에 포함되는 유전자의 count를 UMI(Unique Molecular Identifier)로 형태로 얻음으로써 어떠한 유전자들이 얼마나 포함되어 있는가를 확인할 수 있다.

Image

이미지 참조 : https://www.cell.com/abstract/S0092-8674(15)00549-8

CellRanger #

CellRanger는 10X genomics에서 생산된 Chromium scRNA의 Sequencing 데이터를 분석할 수 있는 파이프라인으로 크게 4가지 프로그램으로 구성되어 있다.

Image

이미지 참조 : https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/what-is-cell-ranger

 1. cellranger mkfastq
 scRNA 에 대해 illumina sequencer로부터 주로 생산되는 raw base call(BCL) 파일을 생물정보에서 흔하게 사용되는 FASTQ 파일 형식으로 변환하는 프로그램이다. 이 프로그램을 수행하게 되면 I1_001.fastq.gz(Index file), R1_001.fastq.gz, R2_001.fastq.gz 파일이 각각 이후 분석을 위해 생성된다.

 2. cellranger count
 cellranger에서 가장 핵심적인 프로그램으로, 앞서 cellranger mkfastq 결과를 input으로 하여 alignment, filtering, barcode 및 UMI counting을 통해 cell-to-gene에 대한 matrix 파일을 구성할 수 있으며 각 cell들 간의 각 유전자의 발현 값을 바탕으로 그룹핑이 되어 Loupe cell browser 프로그램을 이용해 해당 샘플의 cell clustering을 시각적으로 확인할 수 있다.

 3. cellranger aggr
 각 샘플별 cellranger count 수행한 결과를 input으로 하여 원하는 샘플들의 결과를 하나로 합칠 수 있는 프로그램이다. 대개 비교하고자 하는 그룹의 샘플들의 cellranger count 결과를 하나로 합쳐 각 그룹 간의 cell clustering을 비교할 수 있다.

 4. cellranger reanalyze
 cellranger count 혹은 cellranger aggr 프로그램을 원하는 옵션에 맞게 재실행할 수 있는 프로그램이다.

Seurat #

Seurat 은 single-cell RNA 데이터를 분석할 수 있는 R package 중 하나로, scRNA의 QC, analysis, clustering, annotation 등을 통해 각 샘플별로 CELL Type을 구분하고 해석할 수 있다. 최근 single-cell RNA 논문에서 monocle과 함께 citing 되어 주로 사용되고 있으며 tutorial이 따라 하기 쉽도록 제공된다(아래 reference 참고)

 library(dplyr)
 library(Seurat)

 ### import input_data(cellranger count output과 동일) ###
 pbmc.data <- Read10X(data.dir = "filtered_gene_bc_matrices/hg19/")

 ### setup the seurat object ###
 pbmc <- CreateSeuratObject(counts = pbmc.data, project = "pbmc3k", min.cells = 3, min.features = 200)

 ### Preprocessing(QC) ###
 : Low quality cell, mitochondria genome percent check
 pbmc[["percent.mt"]] <- PercentageFeatureSet(object = pbmc, pattern = "^MT-")

 ### normalizing the data ###
 pbmc <- NormalizeData(object = pbmc, normalization.method = "LogNormalize", scale.factor = 10000)

 ### identification of highly variable features ###
 pbmc <- FindVariableFeatures(object = pbmc, selection.method = "vst", nfeatures = 2000)

 ### scaling data ###
 all.genes <- rownames(x = pbmc)
 pbmc <- ScaleData(object = pbmc, features = all.genes)

 ### perform linear dimensional reduction ###
 pbmc <- RunPCA(object = pbmc, features = VariableFeatures(object = pbmc))

 ### determine the "dimensionality" of the dataset
 pbmc <- JackStraw(object = pbmc, num.replicate = 100)
 pbmc <- ScoreJackStraw(object = pbmc, dims = 1:20)

 ### cluster the cells ###
 pbmc <- FindNeighbors(object = pbmc, dims = 1:10)
 pbmc <- FindClusters(object = pbmc, resolution = 0.5)

 ### Run non-linear dimensional reduction(tSNE) ###
 pbmc <- RunUMAP(object = pbmc, dims = 1:10)
 DimPlot(object = pbmc, reduction = "umap")

 ### Finding differentially expressed features(biomarkers) ###
 pbmc.markers <- FindAllMarkers(object = pbmc, only.pos = TRUE, min.pct = 0.25, logfc.threshold = 0.25)

Image

이미지 참조 : https://satijalab.org/seurat/v3.0/pbmc3k_tutorial.html

reference #

  1. 10XGenomics : https://www.10xgenomics.com/solutions/single-cell/
  2. Seurat tutorial : https://satijalab.org/seurat/pbmc3k_tutorial.html
  3. Monocle tutorial : http://cole-trapnell-lab.github.io/monocle-release/docs/#installing-monocle
  4. Zheng, G. X. Y. et al. Massively parallel digital transcriptional profiling of single cells. Nat. Commun. 8, 14049 doi: 10.1038/ncomms14049 (2017).
  5. Macosko, E. Z., Basu, A., Satija, R., Nemesh, J., Shekhar, K., Goldman, M., … McCarroll, S. A. (2015). Highly Parallel Genome-wide Expression Profiling of Individual Cells Using Nanoliter Droplets. Cell, 161(5), 1202–1214. https://doi.org/10.1016/j.cell.2015.05.002
  6. Getting started with Seurat : https://davetang.org/muse/2017/08/01/getting-started-seurat/
0.0.1_20140628_0