Skip to content

GWAS #

Find similar titles

25회 업데이트 됨.

Edit
  • 최초 작성자
    Hey-young
  • 최근 업데이트
    shlee

Structured data

Category
Analysis

Genome-wide association study #

유전형과 표현형의 연관관계 분석

일본 이화학연구소의 Ozaki(2002)그룹에서 최초로 시도된 연구 방법으로, 복합형질에 영향을 미치는 유전좌위를 발굴하기 위하여 유전체의 후보 영역을 특정하지 않고 널리 존재하는 SNP 표지인자와의 연관을 분석하는 연구다. GWAS의 연구 성과에 대해서는 National Human Genome Research Institute의 GWAS catalog에 정리되어있다. GWAS는 유전자 다형성의 하나인 SNP(Single nucleoide polymorphism)를 주로 이용한다. 대개 하나의 SNP좌위는 두 염기의 조합으로 이루어지며, 일반적으로 인간의 염기서열에서 약 1%의 SNP를 보이는 것으로 알려져 있다. GWAS는 양적인 phenotypic data의 분석이라고 할 수 있다. 예를 들어 키 또는 바이오마커 유전자 발현에 대한 분석이 있다. 전형적으로 사용되는 생물정보 소프트웨어는 SNPTEST, PLINK 그리고 GAPIT이 있다.

GWAS 분석 개요 #

GWAS 분석에는 크게 유전형과 표현형 2가지 요인에 의해서 좌우된다. 유전형과 표현형과의 연관 관계를 찾는 것이 가장 큰 분석의 목적이라 할 수 있다. 다수 개체의 고해상도 유전형 정보와 그 표현형 정보를 알고 있다면, 해당 표현형을 나타나게 하는 유전좌위가 어떤 곳인지 통계적 방법을 통해 확인할 수 있다. 이를 통해 유전체의 어떤 부분이 어떤 표현된 특징을 나타나게 하는지에 대한 수많은 연구들이 수행되고 있다. 이러한 연구들을 통해 우리는 유전체(genome)가 어떻게 기능하는지 이해하게 될 것이며, 다양한 응용을 가능하게 한다. 그 외에도 환경에 의한 영향도 중요한 쟁점으로 본다. 표현형 및 유전형도 환경에 의해서 발현 양상이 변할 수 있고 발현이 안 될 수도 있기 때문에 환경에 의한 영향도 주요한 변수이다. 따라서 환경에 대한 변수를 metadata화 하여 GWAS 분석에 참고한다.

유전형 data 생성 #

기존에 활용되던 SSR, RFLP, 기본적인 분자 마커 등 다형성을 보이는 유전자형 마커를 활용하면 된다. 현재는 NGS, GBS등의 접근을 통해 SNP(Single nucleoide polymorphism)를 많이 활용한다. 이미 많이 연구가 진행된 생물 종의 경우 상용 SNP chip(illumina bead chip, Affymetrix SNP array) 등이 개발되어 있다. 특히 human의 경우 1000 genome 을 비롯한 공개 DB를 통해서도 많은 유전형 data를 확보할 수 있다. 그 외에도 모델 생물체 및 주요 식량 작물(벼)과 같이 활발하게 연구가 진행된 생물 종의 경우 대게 유전체 DB가 확보되어 있어 유전형 data를 확보할 수 있다.

표현형 data 생성 #

개체가 나타내는 것으로 드러나는 여러 가지 특성. 물리적인 특성뿐만 아니라 행동 같은 특성까지도 포함한다. 해당 data를 생성하기 위해선 정확한 기준, 조건 등을 맞춰서 일관적인 방식으로 data를 생성해야 한다. 표현형의 경우 환경적 요인에 많이 좌우돼서 당시에 환경조건을 같이 적어 둔다면 추후 수치화시킬 때 많은 도움이 될 수 있다.
최근엔 영상 해독 기술의 발달로 표현형 자체만으로 해석이 가능한 기계학습 기술이 각광 받고 있다. 해당 기계학습을 통해서 생성된 표현형은 기존에 사람에 의해 진행되던 표현형에 비해 훨씬 객관적이고 정확하기 때문에 표현형을 측정하는 데 많은 도움이 된다.

GWAS 분석 방법 #

GWAS 분석 방식은 다형성을 나타내는 마커가 필요하다. 이 중 가장 많이 사용되는 SNP을 활용한 분석에 대해서 집중 탐구 한다.

NGS 방법 #

NGS 분석을 진행하면 다양한 contig가 생성되고 이를 assembly하여 유전체를 작성해야 한다. 1차 assembly가 완료된 contig를 대상으로 기준이 되는 reference 서열과의 비교를 통해 variation 유무를 한다. 이때 단순 mis-match와 variation 정도는 변이의 frequency와 coverage 통해 가늠하게 된다. 이후 SNP 및 Indel의 위치정보를 유전체 상의 위치정보로 확인하여 regulatory SNP(rSNP), 유전자를 코딩하면서 엑손 부위에 존재하는 coding SNP(cSNP), 인트론에 위치하는 intron SNP(iSNP) 및 유전자와 유전자 사이의 intergenic region에 존재하는 genomic SNP(gSNP) 으로 구분하게 된다. 이를 통해서 탐색한 SNP들은 다형성 마커로 처리하여 GWAS 분석을 수행한다.

GBS 방법 #

GBS 기술은 Resequencing과 같은 NGS 기반 방식이지만, 제한 효소로 genomic DNA를 절단하여 절단된 주변 서열만 부분적으로 해독할 수 있는 특징을 가진다. 유전체 전체를 Sequencing 하지 않고 부분적으로 sequencing 해서 유전체 전체 정보를 확보할 수 있기에 비용적인 부담을 확 줄일 수 있게 되었다. 이를 통해서 전체 genome을 assembly하지 않고도 SNP 탐색이 가능하다.

Image <<출처 : 코넬대학>>

신품종 육성을 위해서는 우선 우수한 형질을 포함하고 있는 다양한 유전자원을 확보하고 평가해야 한다. 또한 교배 부모본으로 사용할 수 있는 우수친을 유지하고 평가하는 것이 필요하다. 수천 개의 SNP로 수십 개체를 평가할 수 있는 GBS 기술은 phylogeny 혹은 kinship 분석 등을 통해 유전적 다양성 정도 혹은 유전적 고정 정도, 혼입 여부 등을 평가하는 적용 사례가 꾸준히 증가할 것으로 예상된다. 또한, 다른 육종의 핵심역량 중 하나로, 다양한 형질연관 분자 마커 개발을 언급하고 있다. ‘육종 현장 내 다양한 요구(needs)에 맞는 분자 마커를 빠르게 개발하여 공급할 수 있는가?’ 이 질문에 대해 GBS 기술이 완벽한 모범 답안이 될 수는 없지만, 저렴한 비용과 분석의 단순성 등 GBS 기술이 지닌 장점으로 QTL의 연관지도 작성을 수주일 내에 가능하게 하는 등 분자 마커 개발 속도에 박차를 가할 수 있는 촉매제라고 말할 수 있다. GWAS에도 활발하게 적용하고 있어, 향후 형질 연관 분자마커의 개발 속도가 더욱 빨라질 것으로 예상된다. MAS를 이용한 개체선발 뿐만 아니라 MABC를 이용한 여교잡 선발도 매우 중요한 분야이다. GBS를 이용한 MABC도 매우 유망한 분야로 평가된다.

SNP-chip 방법 #

위와 같은 방식들로 확보하고 있는 SNP정보가 충분할 경우 이를 세트로 편성하여 SNP-chip을 만들 수 있다. 대표적인 제품은 Thermo사에 Affymatrix chip, illumina사에 Beadchip등이 있다. 해당 제품들은 상용화가 되어 있는 chip부터 사용자 맞춤형 chip등도 제작이 가능하다. Image <<출처 : Affymetrix>> Image <<출처 : illumina >> Fluidigm사에서 제공하는 IFC chip 및 assay를 활용하면 필요한 SNP들을 선발하여 진행할 수 있다.

GWAS 데이터 베이스 #

dbSNP #

dbSNP데이터 베이스는 1998년 NCBI와 NHGRI에 의해 구축되었다. 이 데이터베이스는 비교적 신뢰도 높고 포괄적 방대함을 갖춘 대표적인 유전체 다양성 자원으로, 변이 정보를 유전자 정보와 연결하여 관련 기능 및 주석 등과 함께 브라우저상에서 통합해준다. 또한, 인간의 SNV(single nucleotide variation), microsatellite, small-scale insertion and deletion에 관한 문헌, 인구 내 빈도, 분자적 특징 등의 내용을 담고 있으며, SNP 검색에서 가장 기본이 되는 데이터베이스다. 모든 종에서 24,400만 개 이상의 ssSNP(submitted SNP), 8,800만 개 이상의 rsSNP(reference SNP), 3,000만 개 이상의 validated SNP가 보고되어 있다. https://www.ncbi.nlm.nih.gov/SNP/

HapMap #

국제적인 Hapmap project는 다양한 인종에 따른 sequence variation의 패턴을 규명하는 목적으로 시작되었다. 특정 염색체에 존재하는 SNP allele set와 haplotype의 tag SNP을 포함한다.
https://www.ncbi.nlm.nih.gov/probe/docs/projhapmap/

1000 genome project #

1000 Genome project을 통해 얻어진 유전체 정보는 표준 유전체 구축에 활용되었으며, 대부분의 유전체 분석에서 기본적으로 활용되고 있다. 최초의 대규모 유전체 해독 프로젝트로, 2008년부터 2015년까지 Phase1~3의 단계를 거치며, 총 26개 인종 집단의 2,504명의 게놈이 해독되었다. 해당 유전체 정보를 가공하여 대량의 SNP 정보를 얻어낼 수 있다.

GWAS 분석 도구 #

PLINK #

표현형-유전자형 연관분석을 위해 일반적으로 사용되는 프로그램이다. Case/control 비교와 같은 일반적인 분석부터 셋 이상의 표현형 집단에 대해 정량, 정성 데이터와 유전자형 간 연관성을 볼 수 있다. 병렬처리를 통한 빠른 속도를 장점으로 한다.

GAPIT #

통계 분석 솔루션인 R에서 GWAS 분석을 가능하게 하는 R Package이다. 접근성이 용이한 R을 사용하였기에 비교적 쉽게 활용할 수 있다.

Array suite #

종합 omics 분석 프로그램인 array suite에도 GWAS 분석 기능이 지원된다. omics 분석 데이터와 연계해서 분석이 가능한 장점이 있다.

IncoGWAS #

유전자형-표현형 데이터를 관계형 데이터베이스로 구축하고 다양한 연관 분석을 수행할 수 있는 통합 연구 플랫폼을 제공한다. 유전자형 데이터는 XSLX 뿐 아니라, PED 파일 등 형식을 지원한다. 사용자가 업로드한 데이터는 "데이터셋" 이라는 단위로 관리되며, 사용자가 원할 경우 인터넷에 공개될 수 있다. "App" 이라는 분석 모듈을 이용하여, 다수의 데이터셋에 대한 통합 연관분석 (PCA, GWAS, 육종가 계산 등)을 수행한다.

육종분야 적용사례 #

토마토 유전체 기반 맞춤형 육종기술 개발 #

세종대 심성철 교수님 연구팀에선 토마토 육종에 있어서 GWAS 기술을 핵심적으로 사용하였다. 원예형질(과형, 과색, 과중 등)과 내재해성(내서성, 내습성, 내건성 등)에 대한 핵심집단의 표현형을 분석하고 NGS 기반 GBS 방법을 이용하여 토마토 핵심집단의 genome-wide SNP을 발굴하여 목표형질에 대한 GWAS 분석과 유용유전자 발굴하였다. 이를 유용유전자에 대한 MAS용 분자표지 개발에 활용하였다.

GWAS 분석을 이용한 벼 지엽각 관련 SNP 동정 및 발현 분석 #

충북대 조용구 교수님 연구팀에선 GWAS 분석을 이용한 벼 지엽각 관련 SNP 동정 및 발현 분석을 진행하였다. 국내외에서 수집한 벼 294개 유전자원 핵심집단을 대상으로 벼의 지엽각 특성에 대한 조사를 수행하였고, GWAS를 이용하여 지엽각 연관 유전자를 추출 및 분석하였다. 표현형 데이터를 이용한 GWAS의 Manhattan plot 결과 분석을 통해, 각 집단에서 염색체를 대상으로 표현형과 통계적 유의성을 나타내 연관성을 보이는 SNP를 발굴하였다. 지엽각 관련 특성에 대하여 선행 연구된 QTL region과의 비교를 통하여 본 연구에서 발굴된 SNP간의 유의성을 조사한 결과, 지엽각과 유의성이 있는 SNP (S8-19815442)가 이미 확인된 QTL region에 위치하는 것으로 나타났으며, 후보유전자 Os08g31950 대해 연관 유전자 변이를 관찰하기 위해서 형질 특이적 품종군 간의 염기서열을 비교한 결과 1개의 지역에서 단일염기변이가 검출되었다.

한국재래돼지 종돈확립을 위한 기초축군 조성과 불량형질 향상을 위한 분자육종기법 개발 #

충남대 이준헌 교수님 연구팀에선 Illumina60kchip을 이용하여 SNP을 발굴하였고, 유두수, 주령별 체중변화 유전능력추정 등을 GWAS 분석을 통해서 분석하였다.

임상분야 적용사례 # #

지금까지 GWAS 기술을 이용하여 상당한 성공들이 보고되었다. 2형 당뇨, 파킨슨병, 심부전, 비만, 크론병 및 전립선암뿐만 아니라, 항우울증의 약의 반응에 영향을 주는 유전적 변이를 GWAS를 이용한 연구를 통해 보고되고 있다.

GWAS를 이용한 탈모연구 #

탈모는 부계로부터 유전되는 대표적인 다형성 형질이다.

이전에는 남성에서 상염색체 우성유전으로 부모로부터 어느 하나의 대머리 유전인자를 받으면 대머리가 되지만, 여성은 상염색체 열성유전으로 부모의 어느 한쪽에서만 대머리 유전인자를 받으면 증상이 나타나지 않은 보인자라고 알려져 왔다. 하지만 최근에는 대머리 유전인자가 많을수록 대머리가 될 가능성이 높다는 다인자적 유전설이 있다.

대머리에 영향을 미치는 후보 유전자들을 선발하고 이에 대한 실험을 통해 그 기능과 기작을 증명한다면 탈모 예방 및 치료제 개발에 중대한 요인으로 작용할 수 있을 것이다. 현재 외국의 피부 및 모발 연구소에서도 탈모 관련 연구가 진행되고 있다. 그러나 GWAS를 통해 이루어진 연구는 확률에 의한 유전적 변이를 동정하는 수준에 그치고 있다. 이미 대머리의 유전형질을 보유한 크레이그 벤터와 그 외 다른 개인 간의 비교 분석을 통해 대머리 관련 유전자 변이 수준을 확인할 수 있을 것이다.

GWAS를 통한 신약 개발 #

암젠은 GWAS와 멘델의 유전법칙을 적용해 ASGR1 유전자 변이에 대한 매카니즘을 밝혀냈다. 연구결과 아이슬란드 국민 120명 중 1명꼴로 ASGR1 변이 유전자를 가졌고, 이 유전자를 가진 사람이 그렇지 않은 사람에 비해 나쁜 콜레스테롤과 연관성이 있다는 사실을 알아냈다. 이는 이상지질혈증 치료제인 PCSK-9 억제제 개발로 이어졌다.

한국인 유방암 전장유전체 연관분석 #

한국 여성 유방암 환자와 정상인을 대상으로 3단계에 걸친 유방암 전장유전체 연관분석을 시행하였다. 그 결과, 서구에서 발견되었던 유방암 발생과 관련된 변이를 한국인에서도 확인하였으며(TOX3, FGFR2 등), 서양인에서는 연관성이 있었지만 한국인에서는 연관이 없는 변이도 확인할 수 있었다(LSP1, RAD51L1 등). 이는 한국인의 유방암 발생 양상이 서구와 다른 패턴을 보이는 것과 같이, 발생에 연관이 있는 유전요인도 서양인과 다르다는 점을 시사하는 연구 결과이며, 더욱이 서양 여성에서 발견하지 못했던 유전자(ERBB4)의 새로운 유전변이를 발굴하게 됨에 따라 한국인의 유전적 유방암 발생 위험도를 설명할 수 있는 새로운 증거를 제시하는 연구 결과이다.

GWAS를 이용한 PRS #

GWAS를 통해 개인의 복합형질(complex trait)에 대한 많은 유전좌위의 효과를 개인의 다인유전자 위험도(polygenic risk score, PRS)로 추정할 수 있다. 복합형질에 대한 감수성을 개개인의 PRS로 알 수가 있어 질병의 예방, 진단, 치료, 예후 등 의료분야에 응용하여 맞춤형 의료가 가능하다. PRS는 개인의 유전요인만 반영한 점수이므로, 감수성의 정확성을 위해서는 환경요인 및 다인유전자와 환경의 상호작용을 고려해야 한다. PRS가 크다는 것은 복합형질의 발생 확률이 높고, 조기에 발생할 수 있다는 것을 의미한다, PRS로 유전적 위험 부담을 조기에 인식하게 된다면, 개인이 생활패턴의 변화와 같은 예방을 통해 질병을 피하거나 지연시킬 수 있다.

현재 PRS를 이용한 의료 시스템의 표준이 정해진 것은 없지만, 유전자 검사를 통해 얻은 유전자형 정보를 이용하여 민간 기업에서 제공하는 다양한 질병 및 특성에 대한 PRS를 계산할 수 있다. PRS의 정확성과 임상적 유용성 정도에 대한 예측도 현재로서는 어렵다. 대부분의 PRS 연구가 유럽 집단에서 수행되었기에, 유럽이 아닌 다른 집단에서 PRS의 적용에 세심한 주의가 필요하다.

출처 #

http://en.wikipedia.org/wiki/Genome-wide_association_study

http://insilicogen.com/wiki/GWAS/blad

유전체 데이터 분석 I 기초편 3판, 2023, 김주한

Incoming Links #

Related Data Sciences #

Related Bioinformaticses #

Suggested Pages #

0.0.1_20240318_1_v95