Skip to content

STRUCTURE #
Find similar titles

Structured data

Category
Software

STRUCTURE #

STRUCTURE software #

각 개체간의 유전적 관계 및 집단안의 유전적 유사성(genetic relationships and genetic similarities) 분석 프로그램

STRUCTURE에 사용되는 통계적 기법 #

STRUCTURE 프로그램은 집단유적학(population genetics) 연구에서 자주 사용되는 프로그램으로 각 집단의 모수를 추정하기 위해 "model-based clustering method"이라는 클러스트링기법을 이용하며 이를 위해 Bayesian framework의 Markov chain Monte Carlo (MCMC) 분석 알고리즘을 적용시킨 프로그램이다.

주성분분석(PCA)나 K-means clustering 분석에 쓰이는 "Distance based clustering methods” 와는 구별된다.

입력파일의 포맷 #

Input file은 Genotype data file로 개체가 행이고, 마커의 좌위가 열인 행렬 data로 Genotype의 코딩은 반드시 숫자로 작성해야 하며 Input file은 반드시 text 파일(.txt)로 작성해야 하며 excel 파일(.xls)은 지원하지 않는다. 만약 Missing data가 있다면 그 값은 다른 genotype 값과 다른 숫자 값을 지정해야한다.

  • 예를들어 다른 genotype의 값이 0, 1, 2 라면 Missing data의 경우 -1로 지정

Image

분석 방법 #

모델은 크게 두 가지로 분류된다.

  • Ancestry Models

    • No admixture model
    • Admixture model
    • Linkage model
    • Using prior population information
  • Allele frequency models

모수 설정 시 두 가지 값에 유의해야 분석에 걸리는 시간을 최소화 할 수 있다.

  • Length of Burnin Period : 분석 시작 환경을 최소화하기 위해 데이터를 수집하기 전 시뮬레이션하는 횟수
  • Number of MCMC Reps after Burnin : 정확한 모수 추정치를 얻기위해 brurn-in 후 시뮬레이션하는 횟수

분석 결과 #

  • 클러스터 집단 수(K)에 대한 평균 Ln(K)를 확인할 수 있으며, 이를 통해 샘플집단의 적합한 클러스터 집단 수를 추정할 수 있다. 또 추가적으로 “ad hoc statistics(∆K)”를 이용하면 더 정확한 집단 수를 판별할 수 있다.

Image

Image

  • 클러스터 집단 수 K에 따라 각각의 bar plot와 triangle plot을 확인할 수 있다.

Image

Reference #

0.0.1_20210630_7_v33