Skip to content

GBS #
Find similar titles

Structured data

Category
Biology

GBS: Genotyping by Sequencing #

Genotyping by sequencing (GBS)는 차세대 시퀀싱 기술을 바탕으로 새롭게 개발/발전하고 있는 NGS 분석법 중에 하나이다. 유전체 전체를 시퀀싱하는 WGS에 비해 저렴한 비용으로 빠르고 쉽게 Genome-wide 분석을 가능하게 한 테크닉이다. 제한효소를 처리하여 유전체 서열에서 그 제한효소에 의해 잘리는 영역 주변의 서열만을 시퀀싱하게 된다. 제한효소를 처리한다는 점에서는 RAD-seq과 근본적으로 원리가 같지만 효소절단 후 사이즈 선별을 하지 않는다는 점에서 시퀀싱 라이브러리 제작이 보단 간단한 편이며 GBS 시퀀싱 데이터가 RAD-seq에 비해 low coverage로 얻어진다.

GBS 과정 #

Image

1.적당한 제한 효소(sticky end) 처리 #

    a. 4-base/5-base/6-base cutters
    b. methylation에 따른 활성 차이를 보이는 제한 효소 사용
    c. 제한 효소 처리후 fragment의 길이가 200~700 bp 정도 되는 비율이 높을것 (NGS 시퀀싱으로 시퀀싱 되는 size 고려)
    d. 전체 유전체의 3% 정도의 서열을 시퀀싱 할것을 목표로함
    e. 시퀀싱 되는 영역에서 10X 정도 될수 있도록 함

2.제한효소에 맞는 adaptor 서열로 ligation #

    a. adaptor서열의 뒷부분에 개체 식별을 위한 barcode 서열이(4~6bp) 이어짐.
    b. barcode 서열 뒤로 PCR을 위한 프라이머 서열이 이어짐 (보통 P5, P7 promoter).

3. PCR로 fragment 증폭 #

4. NGS 시퀀싱 #

    a. 시퀀싱 시에 1 lane에 최대 48개를 넘지 않도록함
    b. NGS 시퀀싱 장비의 Run-mode 설정을 Mid-output 모드로 하여 진행 (시퀀싱양은 High-mode에 비해 4배 가까이 적지만, 시퀀싱 quality가 Q30 이상을 80% 이상 보장 받으므로 이를 추천, 비용 부분은 최종 시퀀싱 양에 따라 산출되므로 Mid-output을 여러번 run 하여 high quality 서열을 많이 가져가는 것이 유리함)

5. 아답터 서열 제거 #

6. Demultiplexing을 통한 개체 식별 및 개체별 서열 분리 #

    a. 시퀀싱 이후 개체별 de-multiplexing을 요청하여 개체별 구분된 데이터를 인수 받도록함
    b. 개체 식별 과정인 de-multiplexing 시에 개체 식별을 위한 barcode 서열이 한두개 정도 quality가 낮아 식별이 어려울경우 사용된 모든 barcode 서열을 확인하여 읽히지 않은 서열을 제외하더라도 구별이 가능한지를 체크하여 최대한 많은 서열을 식별하도록 함. 단 이때 barcode 서열 뒤에 사용한 제한효소의 유무는 반듯이 체크하여 존재할 경우에만 사용.

7. 개체 barcode 서열 및 enzyme 서열 제거 #

8. 서열의 quality 체크를 통한 high quality 서열 분리 (>Q15) #

9. 표준 서열에 Mapping 및 De novo clustering 및 mapping #

    a. 표준 서열이 존재할 경우 : GATK 모듈 이용
    b. 표준 서열 없은 경우 : Stacks/ TASSEL

10. 개체별 SNP 마커 선별 #

    a. 전체 개체의 80% 이상에서 genotype이 확인되는 마커를 1차 선별
    b. LD block내 여러 마커는 이를 대표하는 하나의 마커로 선별하여 최종 사용하는 마커수를 줄임

11. Application에 맞도록 마커 이용 #

GBS applications #

  1. Marker discovery
  2. Phylogeny/Kinship
  3. Linkage mapping of QTL in a biparental cross
  4. Fine mapping QTL (Quantitative trait loci)
  5. Genomic selection
  6. GWAS (Genome wide association study)
  7. NAM-GWAS (Nested association mapping GWAS)
  8. Improving reference genome assembly

PipeLines #

현재 두가지 정도의 일반 분석 파이프라인이 구축 되어있다. 하나는 Oregon Univ.에서 개발된 Stacks이며, 다른 하나는 Cornell Univ.에서 개발된 TASSEL이다.

Stacks #

사이트: http://creskolab.uoregon.edu/stacks/

TASSEL #

사이드: http://tassel.bitbucket.org/

참고문헌 #

  1. 2011 Nat. Rev. Genet. Genome-wide genetic marker discovery and genotyping using next-genernation sequencing.
  2. 2013 Mol. Ecol. Stacks: an analysis tool set for population genomics.
  3. 2014 PLoS One. TASSEL-GBS A high capacity genotyping by sequencing analysis pipeline.

Incoming Links #

Related Bioinformaticses #

Suggested Pages #

0.0.1_20140628_0