Table of Contents
PLINK를 이용한 연관분석 #
연관분석(Association study)이란? #
표현형-유전자형 연관성에 대해 통계적 유의성을 판단하는 분석법이다. 유전체의 SNP좌위에 대해 둘 이상의 표현형을 갖는 집단(population)에 대하여 모든 개체로부터 얻은 유전자형(genotype) 정보를 이용해 집단의 표현형과 유전자형의 연관성을 검정한다. 크게 single SNP level, haplotype에 대한 검정이 가능하다.
PLINK #
표현형-유전자형 연관분석을 위해 일반적으로 사용되는 프로그램이다. Case/control 비교와 같은 일반적인 분석부터 셋 이상의 표현형 집단에 대해 정량, 정성데이터와 유전자형 간 연관성을 볼 수 있다. 병렬처리를 통한 빠른 속도를 장점으로 한다.
분석카테고리 #
개별 변이 연관분석-정성표현형데이터 #
<커맨드>
$plink --file mydata --assoc
<활용 예>
$plink --file [ped prefix] --assoc --out [output prefix] --adjust
or
$plink --bfile [bed prefix] --assoc --out [output prefix] --adjust
<결과>
[output prefix].assoc
필드정보
CHR 염색체 ID
SNP SNP ID
BP 좌위 (base-pair)
A1 Minor allele 유전자형 (based on whole sample)
F_A Minor allele의 빈도
F_U Major allele의 빈도
A2 Major allele 유전자형
CHISQ Chi-square 통계 값 (1df)
P 검정 p value
OR Estimated odds ratio (for A1, i.e. A2 is reference)
FDR_BH Benjamini & Hochberg (1995) step-up FDR control
FDR_BY Benjamini & Yekutieli (2001) step-up FDR control
<응용>
Fisher's Exact test
$plink --file [ped prefix] --fisher --out [output prefix]
질병-변이 연관성 검사(not allelic difference)
$plink --file [ped prefix] --model
개념
(일반적인 연관분석)
Allelic: D versus d
(질병연관성)
Dominant: (DD, Dd) versus dd
Recessive: DD versus (Dd, dd)
Genotypic: DD versus Dd versus dd
* --fisher --model 파라미터입력을 통해 두 가지 분석을 병행하는 것도 가능하다.
Logistic & Linear regression #
<커맨드>
* 정량표현형데이터
plink --bfile [bed prefix] --linear
* 정성표현형데이터
plink --bfile [bed prefix] --logistic
<활용 예>
$plink --file [ped prefix] --linear --out [output prefix] --adjust
$plink --bfile [bed prefix] --logistic --out [output prefix] --adjust
<결과>
[output prefix].linear
[output prefix].logistic
필드정보
CHR 염색체 ID
SNP SNP ID
BP 좌위 (base-pair)
A1 검정된 대립유전자 (디폴트, Minor allele 유전자형)
TEST Code for the test (see below)
NMISS Number of non-missing individuals included in analysis
BETA/OR Regression coefficient (--linear) or odds ratio (--logistic)
STAT Coefficient t-statistic
P Asymptotic p-value for t-statistic
FDR_BH Benjamini & Hochberg (1995) step-up FDR control
FDR_BY Benjamini & Yekutieli (2001) step-up FDR control
Haplotype association analysis #
<개념> 한 좌위의 SNP가 아닌 특정 영역 내의 변이서열들을 대상으로 연관성 검사를 한다. 분석에 앞서 검사할 haplotype을 만드는 작업을 진행 한다.
$plink --file [ped prefix] --hap myfile.hlist
<커맨드>
$plink --file [ped prefix] --hap myfile.hlist --hap-assoc
* plink1.9버전은 hyplotype 연관분석이 실행되지 않는다. 1.7버전에서 가능하다.
<결과>
[prefix].assoc.hap
필드정보
LOCUS Haplotype locus / window name
HAPLOTYPE Haplotype identifer / "OMNIBUS"
F_A Case에서 minor allele의 빈도
F_U Control에서 minor allele의 빈도
CHISQ Chi-square 통계 값
DF 자유도
P 검정 p value
SNPS haplotype을 구성하는 SNP의 ID
# haplotype 빈도의 계산
$plink --file [ped prefix] --hap myfile.hlist --hap-freq
# 정량 표현형에 대한 분석 결과
[prefix].qassoc.hap
필드정보
LOCUS Haplotype locus / window name
HAPLOTYPE Haplotype identifer
NANAL 분석 개체 수
BETA 회귀계수 (Regression coefficient)
RSQ Proportion variance explained
STAT 통계 값 (T)
P 검정 p value
SNPS haplotype을 구성하는 SNP의 ID
<응용>
# logistic 회귀
$plink --file [ped prefix] --hap myfile.hlist --hap-logistic
# 결과
[prefix].assoc.hap.logistic
필드정보
NSNP Number of SNPs in this haplotype
NHAP Number of common haplotypes (threshold determined by --mhf, 0.01 default)
CHR Chromosome cod
BP1 Physical position of left-most (5') SNP (base-pair)
BP2 Physical position of right-most (3') SNP (base-pair)
SNP1 SNP ID of left-most (5') SNP
SNP2 SNP ID of left-most (3') SNP
HAPLOTYPE Haplotype
F Frequency in sample
OR Estimated odds ratio
STAT 통계 값 (T from Wald test)
P p value
# TDT 연관검정 (Case/control)
$plink --file [ped prefix] --hap myfile.hlist --hap-tdt
[prefix].tdt.hap
필드정보
LOCUS Haplotype locus / window name
HAPLOTYPE Haplotype identifer / "OMNIBUS"
T Number of transmitted haplotypes
U Number of untransmitted haplotypes
CHISQ Chi-square 통계 값
P p value
Missing 데이터의 처리(Imputation)
$plink --file [ped prefix] --hap myfile.hlist --hap-impute
결과
plink.impute.ped
plink.impute.map
* 결과 ped파일을 이용해 분석한다.
참조 #
[http://pngu.mgh.harvard.edu/~purcell/plink/]
Suggested Pages #
- 0.025 GWAS
- 0.025 Next-generation_sequencing
- 0.025 Allele
- 0.025 Chromosome
- 0.013 염색체
- 0.013 Homologous chromosome
- 0.013 난자
- 0.013 상동염색체
- 0.013 정자
- 0.013 다세포
- More suggestions...