Skip to content

BS-Seeker2 #
Find similar titles

Structured data

Category
Software

목적 #

DNA 메틸레이션은 많은 생물학적 과정에 연관되어져 있는 중요한 후성유전학적 변형 중의 하나이다. Bisulfite 실험과 대용량 시퀀싱 기술의 결합은 base단위 당 유전체 전반적인 DNA 메틸레이션을 연구하는 효과적인 접근법이다. 이러한 접근법으로는 Whole genome bisulfite sequencing(WGBS)이나 Reduced represented bisulfite sequencing(RRBS)가 있으며 BS-Seeker2는 이러한 bisulfite sequencing 데이터를 분석하기 위한 툴이다.

논문 #

BS-Seeker2: a versatile aligning pipeline for bisulfite sequencing data.BMC Genomics. 2013 Nov 10;14:774. doi: 10.1186/1471-2164-14-774.

Bisulfite modification? #

DNA상의 메틸레이션 유무를 확인하기 위해 cytosine의 메틸레이션 유무를 서로 다르게 표지하는 단계가 필요하다. 일반적으로 bisulfite modification이 많이 쓰이고 있으며, sodium bisulfite를 DNA에 처리하게 되면 DNA상에 메틸레이션이 되지 않은 염기(C)는 deamination되어 Uracile(U)염기로 바뀌는 반면, 메틸레이션이 된 염기(C)는 그대로 Cytosine(C)으로 남아 있게 된다. 즉 Cytosine의 메틸레이션 유무에 따라 서로 구별할 수 있도록 다른 염기로 표지를 하게된다.

Bisulfite aligner #

1) BS Seeker: 최초의 bisulfite aligner
2) Bismark, BRAT-BW, MethylCoder: three-letter approach
3) BSMAP, RMAPBS, GSNAP: wild-card approach

BS-Seeker2 세부사항 #

1) 홈페이지: http://pellegrini.mcdb.ucla.edu/BS_Seeker2/
2) Operating system:Linux/Mac OS.
3) Programming language: Python 2.6+
4) Other: pysam package, Bowtie/Bowtie2
5) License: MIT License.

Results #

BS-Seeker2의 일의 흐름도
#

<그림1. BS-Seeker2의 흐름도>

Image

BS-Seeker2는 세가지 단계로 진행이 된다.

1) Index-building : 4개의 index instance(+C2T, -C2T, +G2A, -G2A)로 참조서열을 만들어 놓는다.
2) Alignment: 리드를 three-letter로 변환한 후, 4개의 index instance에 매핑한다.
3) Methylation level calling: 매핑된 리드로 메틸레이션 레벨을 측정한다. 결과 파일로 BAM/SAM, wiggle, CGmap이나 ATCGmap 파일을 생성한다.


BS-Seeker2 결과 파일 #

  • Wig file: 첫번째 열은 사이토신의 위치 정보이며 두번째 열은 메틸레이션 값을 나타낸다. 이때 값이 마이너스 값이면 (-) 방향성임을 나타낸다.

<그림2. Wig file>

Image

  • CGmap file: 각 열에 대한 설명은 아래와 같다.

<그림3. CGmap file>

Image

1) Chromosome
2) Nucleotide on Watson (+) strand
3) Position
4) Context (CG/CHG/CHH)
5) Dinucleotide-context (CA/CC/CG/CT)
6) Methylation level = # of C/ (# of C + # of T)
7) Number of C (methylated C, the count of reads showing C)
8) Number of C + Number of T (All cytosine, the count of reads showing C or T)

  • ATCGmap file: 각 열에 대한 설명은 아래와 같다.

<그림4. ATCGmap file>

Image

1) Chromosome
2) Nucleotide on Watson (+) strand
3) Position
4) Context (CG/CHG/CHH)
5) Dinucleotide-context (CA/CC/CG/CT)
6) Number of reads from Watson strand mapped here, support A on Watson strand
7) Number of reads from Watson strand mapped here, support T on Watson strand
8) Number of reads from Watson strand mapped here, support C on Watson strand
9) Number of reads from Watson strand mapped here, support G on Watson strand
10) Number of reads from Watson strand mapped here, support N
11) Number of reads from Crick strand mapped here, support A on Watson strand and T on Crick strand
12) Number of reads from Crick strand mapped here, support T on Watson strand and A on Crick strand
13) Number of reads from Crick strand mapped here, support C on Watson strand and G on Crick strand
14) Number of reads from Crick strand mapped here, support G on Watson strand and C on Crick strand
15) Number of reads from Crick strand mapped here, support N
16) Methylation level = # C/(#C+#T) , nan means none reads support C/T at this position.

Bisulfite aligner의 성능비교
#

<테이블1. Bisulfite aligner의 성능비교>

Image

BS-Seeker와 BS-Seeker2의 가장 큰 차이는 indel을 허용하며, mismatch 갯수의 제한이 없어졌다는 점이다. BS-Seeker2는 3-letter로 변환 후 매핑을 진행하며, WGBS(Whole genome bisulfite sequencing)외에도 RRBS(Reduced repersented bisulfite sequencing)모두 지원한다는 특징이 있다(테이블1)

지원 가능한 형태(BS-Seeker2 vs. Bismark vs. BSMAP)
#

<테이블2. 지원 가능한 형태 (BS-Seeker2 vs. Bismark vs. BSMAP>

Image


Bisulfite aligner로 BS-Seeker2, Bismark, BSMAP을 살펴보면 프로그램 언어로 BS-Seeker2는 python, Bismark는 perl, BSMAP은 C++를 사용한다. 그림3에서 보듯이 BS-Seeker2의 두드러진 특징은 local alignment가 가능하며, aligner로 유일하게 bowtie2 지원이 가능하다. 또한 RRBS 지원이 가능하다는 점이 가장 큰 특징이다(테이블 2).

Reference #

1) https://github.com/BSSeeker/BSseeker2
2) http://pellegrini.mcdb.ucla.edu/BS_Seeker2/

0.0.1_20210630_7_v33