Skip to content

유전정보 #
Find similar titles

Structured data

Category
Biology

유전정보의 정의 #

유전정보란 생물이 종 보존을 위해 부모로부터 자식에게로, 또는 세포분열 시 모세포에서 자세포로 자신의 모든 형질을 전달하기 위한 정보를 의미한다. 이렇게 자신이 가진 모든 형질을 다음세대로 전달하는 과정을 유전(heredity)라고 하며, 이때 전달되는 정보가 유전정보(genetic information)이다.

지속적인 연구를 통해 이러한 유전정보는 DNA 염기배열에 암호화되어 있으며, 이 정보는 전사(transcription)을 통해 mRNA(messenger RNA)로 전달된다. 이 후 mRNA는 번역(translation) 과정을 통해 단백질이 합성되어 발현되어 진다. 이러한 일련의 과정을 Central Dogma라고 지칭한다. 이렇듯 유전정보는 단백질을 합성하는 유전자 정보 외에도 자신의 형질을 다음세대에 전달하기 위한 정보의 해독 및 발현 등의 모든 과정에 필요한 정보를 포함한다.

Image

Central Dogma (출처 : Advances in Molecular Retrovirology)

유전정보의 분류 #

마커서열 #

염기서열 #

염기서열은 DNA의 기본단위 뉴클레오티드의 구성성분 중 하나인 염기 A(adenine), T(thymine), G(guanine), C(cytokine)의 4가지 화학물질들이 나열되어 있는 것을 말하며, 이 4가지의 물질이 어떻게 조합되었느냐에 따라 그 세포의 기능 및 성질이 결정된다. 지구상의 모든 생명체들은 염기서열을 통해 생물의 유전형질을 결정하는 단백질을 지정하게 되는데, 즉 핵 속의 유전자, 유전자 속의 염기서열은 세포의 기능과 성질을 규정해 주는 프로그램이다. 인간의 경우 이 4가지 종류의 염기가 30억쌍으로 개개인마다 다르게 일정한 순서로 늘어서 있다.

계통수 #

과거 조상세대부터 현재까지의 생물의 진화 결과로 여러 종이나 분류군 사이에서 보여지는 표현형적 또는 유전적 특징의 차이를 기반으로 유연관계를 수형도로 나타낸 다이어그램으로, 1766년 독일의 Peter Simon Pallas에 의해 처음 사용되었다. 현재 일반적으로 사용되는 계통수는 동물과 식물이 서로 구분된 방법을 사용하며, 식물에서는 엥글러의 분류계 계통수를 따르고 동물에서는 신헤켈파의 계통수를 따른다.

분자유전학(molecular genetics)의 발달과 함께 유전체 수준의 분석과 유전자 기능의 분석을 통해 계통학(phylogeny)은 계통유전체학(phytlogenomics), 진화유전학(evolutionary genetics), 분자계통학(molecular phylogeny) 등으로 발전해왔고, 현재 다양한 알고리즘을 활용하여 여러 종이나 분류군 간의 DNA 염기서열의 비교를 통해 유연관계를 분석하여 계통수를 작성하고 있다.

계통수 작성방법에는 다양한 방법들이 존재한다. 아미노산 또는 nucleotide가 치환된 수를 distance라고 보고, 이 distance들을 계산하여 계통수를 그리는 방법이 가장 일반적인 방법이나 시간이 오래 걸린다는 단점이 있다. 이러한 한계를 극복하고자 특정 기준을 정하여 그 기준을 만족하는 방법을 사용하기도 한다.

방법 설명
Parsimony character state change(ex. 아미노산 치환)이 가장 적은 계통수에 점수를 부여하는 방식으로 변이가 가장 적은 계통수를 선택하는 방식
Distance 서열의 모든 비교 쌍들에 대해 evolutionary distance를 평가한 후 계산
Maximum liklihood Subtitution probability(아미노산 또는 nucleotide의 치환 확률) model을 바탕으로 가장 높은 확률의 계통수를 선택하는 방식
Bootstrapping 원본 계통수로부터 일부를 무작위 추출(중복가능)하여 새로운 계통수를 생성한 후 모든 계통수를 비교하여 비율(%)을 구하여 계통수를 선택하는 방식

분자 계통수 작성 방법(출처 : 생물학전문연구정보센터 Biowave)

SNP #

유전자 다형 안에서 최근 주목을 받는 것이 SNP(Single Nucleotide Polymorphism, 1 염기다형)이다. SNP는 인구집단의 통상 1% 이상의 빈도에서 발생될 때 인정된다. 약 30억개의 염기를 가진 인간의 게놈에서는 여러 가지 유전적 다형마커가 인식되지만 그 중에서 80% 이상은 SNP로 알려져 있다. SNP는 게놈 안에서 개수가 아주 많기 때문에 마커로 적합하다.

Image

SNP(출처 : infograph.venngage.com)

SNP의 종류 #

SNP는 유전자영역을 중심으로 4가지로 분류된다.

  • rSNP : 전사 조절인자영역에서 발견되며 Regulatory SNP라고 칭한다. 유전자가 mRNA로 발현되는데 중요한 역할을 함
  • iSNP : Intron SNP이며 유전자나 단백질 형성에 중요한 역할은 하지 않지만 Exon가까이서 중요한 역할을 한다고 알려져 있음
  • cSNP : Coding SNP라고 불리며, 단ㄷ백질 코딩영역에 염기 변이를 일으켜 아미노산 변화를 야기시킨다.
  • sSNP : Synonymous SNP라고 불리며, 닥백질 코딩영역에서 발견은 되나 아미노산 변화에 영향을 미치지는 않는다.

SNP 해석 #

하나의 SNP는 대개 두 개 염기 중 어느 하나이며 예를 들면 A (아데닌)이나 G (구아닌) 중 어느 하나가 되지 3개의 염기가 오는 경우 (biallelic)는 거의 없다. 따라서 한 군데의 SNP에는 3 종류의 유전자형이 존재한다. 위의 예로 따지면 A/A homo, G/G homo, A/G hetero 이다. 특정 인구집단을 조사하면 이들 유전자형의 출현빈도를 구할 수 있다. 나아가 그 집단에서 어떤 질환을 가진 사람과 그렇지 않은 사람의 두 그룹을 나눠 각각의 유전자형 빈도를 계산해 그것이 통계적으로 유의하게 다른지를 조사할 수 있다. 단일 SNP으로 유의차가 나올 수도 있고, 복수의 SNP의 조합으로 유의차가 나올 수도 있을 것이다.

SNP는 유전 마커로 이용할 수 있을 뿐만 아니라 그 자체가 기능 변이를 일으키는 경우가 있다. 단백질 코드 영역에 있으면서 아미노산 변화를 일으키는 SNP도 빈도는 낮지만 (전체 SNP의 0.1% 정도) 많은 수가 알려져 있다.

단일염기다형성(Single Nucleotide Polymorphism)으로 불리며 DNA 염기서열에서 하나의염기(A,T,G,C) 차이를 보이는 유전적 변이로 각 개체마다 많은 변이를 보이는 부분으로 이를 통해 질병 및 변이에 대한 연구에 주로 이용됩니다.

Microsatellite #

Microsatellite는 법의학자들은 STR(Short Tandem Repeat)이라고도 하며, 식물유전학자들은 SSR(Simple Sequence Repeat)이라고도 한다. Microsatellite는 반복 염기서열 수의 차이로 보이는 유전변이형 종류 중 하나이다. 반복되는 염기서열이 2~7bp로 짧은 염기서열이 반복되는 것이다.

Microsatellite와 SNP의 비교 #

Microsatellite (STR) SNP
유전적 전달의 정확성이 낮음 (마커의 반복 수 팽창 및 상대적으로 높은 돌연변이율) 유전적 전달의 정확성이 매우 높음
인간 유전체에 약 50,000개 이상 존재 2개의 인간 유전체간에는 ~1 SNP/Kb 존재하고 총 약 300만개 정도의 SNP이 있음
최초의 유전지도(genetic map) 작성에 이용 연관성 연구(association studies)에 이용

유전체 #

시퀀싱데이터 #

시퀀싱데이터란 유전체를 조각낸 뒤 각각의 서열의 조합을 통해 유전체를 해독하는 분석 방법을 통해 얻어지는 대용량 유전체 정보로 최근 기술의 발달로 인해 차세대염기서열분석법(Next-generation sequencing, 이하 NGS)을 통한 방대한 양의 시퀀싱데이터가 기하급수적으로 늘어나고 있다. 또한 다양한 NGS 플랫폼이 개발됨에 따라 FASTA, FASTQ, BAM, SAM, EMBL, SFF 등과 같이 시퀀싱 데이터의 유형도 다양하게 생성되고 있다. 이렇게 생성된 시퀀싱데이터들은 전장유전체 분석, 후성유전체 등과 같은 유전체 기반 연구 및 질병 진단과 유전체 기반의 육종 등의 여러 분야에 활용되고 있다.

미토콘드리아유전체 #

미토콘드리아 유전체는 생태계 모니터링 및 계통분류를 위한 마커로 사용되고 있는 매우 의미있는 유전자원 중 하나로 빠른 염기 치환속도로 인해 생물의 종을 구별하거나 집단 또는 개체 간을 식별하는 마커를 개발하기에 매우 용이하다. 세포내 소기관인 미토콘드리아(mitochondria)가 가지는 독자적인 유전체로 자기 자신의 multicopy DNA를 보유하고 있으며, 미토콘드리아의 전기능 중 일부를 암호화하고 있다.

미토콘드리아 유전체는 미토콘드리아 내 ATP합성에 중요한 역할을 하는 전자전달연쇄(electron transport chain) 단위체를 생성한다. 세포 내 사용되는 ATP의 약 80% 이상을 미토콘드리아에 의해 생산되며, 미토콘드리아 유전체(mitochondrial DNA, mtDNA)의 변이에 의한 ATP 합성 저하는 인간에게 다양한 질병을 유발한다.

사람에게 존재하는 미토콘드리아 유전체는 37개의 유전자와 약 16,600개의 염기쌍을 가지고 있으며, 또한 산화적 인산화를 위해 총 37개의 유전자 중 13개는 단백질 발현을 조절하는 전자전달연쇄 단위체 mRNA(COⅠ, COⅡ, COⅢ, ND1, ND2, ND3, ND4, ND4L, ND5, ND6, ATP6, ATP8, CytB)와 mRNA에 아미노산을 운반하는 22개의 tRNA(transfer RNA), 그리고 나머지 2개는 rRNA(ribosomal RNA, 12S rRNA, 16S rRNA)를 암호화 한다. 또한 미토콘드리아 유전체는 한 개의 세포 내에 수백에서 수천 개의 사본이 존재하며 control region으로 불리는 약 1,100bp 길이의 조절 부위를 제외하고 대부분이 coding DNA로 구성되어 있다.

미토콘드리아 유전체의 변이로 인해 유발되는 각종 질병과, 변이의 축적으로 인한 노화와의 관계로 인해 유전학 분야에서 활발한 연구가 이루어지고 있다. 또한 체세포 내 핵 DNA는 두 개의 사본이 존재하나, 미토콘드리아 유전체는 수백 개에서 수천 개의 사본이 존재할 뿐 아니라 재조합이 없고 핵 DNA 보다 높은 변이율을 가지며, 모계유전만 이루어진다는 특징으로 인해 계통 분류와 유전체 분석에 많이 활용되고 있다.

Image

사람의 미토콘드리아 유전체 구조(출처 : Wikipedia)

엽록체유전체 #

식물체의 유전체는 일반적으로 핵 DNA와 세포소기관 내 엽록체 DNA, 미토콘드리아 DNA로 구분된다. 엽록체 유전체는 엽록체가 가지는 독자적인 유전체로 일반적으로 120~180kbp 정도의 고리모양 DNA로 약 120~150여개의 유전자를 포함하고 있으며, 그 중 약 95개의 단백질 발현을 조절하는 유전자와 약 30개의 tRNA, 4개의 rRNA(23S, 16S, 5S,4.5S)를 가진다. 고리모양의 DNA는 일반적으로 1쌍의 길고 짧은 2개 영역인 역방향반복배열(inverted repeat se-quence, IRA, IRB)과 LSC(long single copy), SSC(small single copy)로 구분되는 안정적인 구조를 가지고 있다.

미토콘드리아 유전체의 경우 구조적 및 방법론적으로 식물체의 분자유전학적 연구에 활용하기 어려운 부분이 있다. 반면 엽록체유전체는 구조적 장점과 재현성이 용이한 장점을 바탕으로 현재 식물분자계통학에서 핵의 ribosome와 함게 중요한 계통학적 도구로 많이 사용되고 있을 뿐만 아니라 유전자에 따라서 진화속도가 크게 달라 분자유전학 연구에도 많이 활용되고 있다. 식물의 종 분류에 사용되는 대표적인 엽록체유전체 바코드 마커는 matK, rbcL, trnL-F, rps16, rpl16, psbA-trnH, ndhF, trnK 등이 있으며, 식물 분류군에 따라 다양한 조합의 바코드 마커가 활용되고 있다.

Image

엽록체 유전체 구조(출처 : Wikipedia)

Reference #

Suggested Pages #

0.0.1_20140628_0