Skip to content

PLINK Association #
Find similar titles

PLINK를 이용한 연관분석 #

연관분석(Association study)이란? #

표현형-유전자형 연관성에 대해 통계적 유의성을 판단하는 분석법이다. 유전체의 SNP좌위에 대해 둘 이상의 표현형을 갖는 집단(population)에 대하여 모든 개체로부터 얻은 유전자형(genotype) 정보를 이용해 집단의 표현형과 유전자형의 연관성을 검정한다. 크게 single SNP level, haplotype에 대한 검정이 가능하다.

PLINK #

표현형-유전자형 연관분석을 위해 일반적으로 사용되는 프로그램이다. Case/control 비교와 같은 일반적인 분석부터 셋 이상의 표현형 집단에 대해 정량, 정성데이터와 유전자형 간 연관성을 볼 수 있다. 병렬처리를 통한 빠른 속도를 장점으로 한다.

분석카테고리 #

개별 변이 연관분석-정성표현형데이터 #

<커맨드>

$plink --file mydata --assoc

<활용 예>

$plink --file [ped prefix] --assoc --out [output prefix] --adjust
or
$plink --bfile [bed prefix] --assoc --out [output prefix] --adjust

<결과>

[output prefix].assoc

 필드정보
 CHR     염색체 ID
 SNP     SNP ID
 BP      좌위 (base-pair)
 A1      Minor allele 유전자형 (based on whole sample)
 F_A     Minor allele의 빈도
 F_U     Major allele의 빈도
 A2      Major allele 유전자형
 CHISQ   Chi-square 통계 값 (1df)
 P       검정 p value
 OR      Estimated odds ratio (for A1, i.e. A2 is reference)
 FDR_BH      Benjamini & Hochberg (1995) step-up FDR control
 FDR_BY      Benjamini & Yekutieli (2001) step-up FDR control

<응용>

Fisher's Exact test
$plink --file [ped prefix] --fisher --out [output prefix]

질병-변이 연관성 검사(not allelic difference)
$plink --file [ped prefix] --model

개념
(일반적인 연관분석)
Allelic:         D        versus      d
(질병연관성)
Dominant:     (DD, Dd)    versus      dd
Recessive:       DD       versus   (Dd, dd)
Genotypic:       DD       versus      Dd         versus    dd

* --fisher --model 파라미터입력을 통해 두 가지 분석을 병행하는 것도 가능하다.

Logistic & Linear regression #

<커맨드>

* 정량표현형데이터
plink --bfile [bed prefix] --linear

* 정성표현형데이터
plink --bfile [bed prefix] --logistic

<활용 예>

$plink --file [ped prefix] --linear --out [output prefix] --adjust

$plink --bfile [bed prefix] --logistic --out [output prefix] --adjust

<결과>

[output prefix].linear

[output prefix].logistic

필드정보
 CHR     염색체 ID
 SNP     SNP ID
 BP      좌위 (base-pair)
 A1      검정된 대립유전자 (디폴트, Minor allele 유전자형)
 TEST      Code for the test (see below)
 NMISS     Number of non-missing individuals included in analysis
 BETA/OR   Regression coefficient (--linear) or odds ratio (--logistic)
 STAT      Coefficient t-statistic 
 P         Asymptotic p-value for t-statistic
 FDR_BH      Benjamini & Hochberg (1995) step-up FDR control
 FDR_BY      Benjamini & Yekutieli (2001) step-up FDR control

Haplotype association analysis #

<개념> 한 좌위의 SNP가 아닌 특정 영역 내의 변이서열들을 대상으로 연관성 검사를 한다. 분석에 앞서 검사할 haplotype을 만드는 작업을 진행 한다.

 $plink --file [ped prefix] --hap myfile.hlist

<커맨드>

 $plink --file [ped prefix] --hap myfile.hlist --hap-assoc

 * plink1.9버전은 hyplotype 연관분석이 실행되지 않는다. 1.7버전에서 가능하다.

<결과>

 [prefix].assoc.hap

 필드정보
 LOCUS        Haplotype locus / window name
 HAPLOTYPE    Haplotype identifer / "OMNIBUS"
 F_A          Case에서 minor allele의 빈도
 F_U          Control에서 minor allele의 빈도
 CHISQ        Chi-square 통계 값
 DF           자유도
 P            검정 p value
 SNPS         haplotype을 구성하는 SNP의 ID


 # haplotype 빈도의 계산
 $plink --file [ped prefix] --hap myfile.hlist --hap-freq

 # 정량 표현형에 대한 분석 결과
 [prefix].qassoc.hap

 필드정보
 LOCUS        Haplotype locus / window name
 HAPLOTYPE    Haplotype identifer
 NANAL        분석 개체 수
 BETA         회귀계수 (Regression coefficient)
 RSQ          Proportion variance explained
 STAT         통계 값 (T)
 P            검정 p value
 SNPS         haplotype을 구성하는 SNP의 ID

<응용>

 # logistic 회귀
 $plink --file [ped prefix] --hap myfile.hlist --hap-logistic

 # 결과
 [prefix].assoc.hap.logistic

    필드정보
    NSNP    Number of SNPs in this haplotype
    NHAP    Number of common haplotypes (threshold determined by --mhf, 0.01 default)
    CHR    Chromosome cod
    BP1    Physical position of left-most (5') SNP (base-pair)
    BP2    Physical position of right-most (3') SNP (base-pair)
    SNP1    SNP ID of left-most (5') SNP
    SNP2    SNP ID of left-most (3') SNP
    HAPLOTYPE    Haplotype 
    F    Frequency in sample
    OR    Estimated odds ratio
    STAT    통계 값 (T from Wald test)
    P    p value

 # TDT 연관검정 (Case/control)
 $plink --file [ped prefix] --hap myfile.hlist --hap-tdt
 [prefix].tdt.hap

 필드정보
 LOCUS        Haplotype locus / window name
 HAPLOTYPE    Haplotype identifer / "OMNIBUS"
 T            Number of transmitted haplotypes
 U            Number of untransmitted haplotypes
 CHISQ        Chi-square 통계 값
 P            p value

Missing 데이터의 처리(Imputation)

 $plink --file [ped prefix] --hap myfile.hlist --hap-impute

 결과
 plink.impute.ped
 plink.impute.map

 * 결과 ped파일을 이용해 분석한다.

참조 #

[http://pngu.mgh.harvard.edu/~purcell/plink/]

Suggested Pages #

0.0.1_20210630_7_v33