in silico breeding
#
Find similar titles
- 최초 작성자
- 최근 업데이트
Structured data
- Category
- Biology
Table of Contents
개요 #
육종의 역사는 인류의 역사와 함께한다. 특히 인류가 농경사회로 정착하면서 식량으로 사용될 작물 및 동물들을 발굴, 개량해왔다. 최초의 육종은 선발(selection)에 개념이며 같은 종 내에서 먹을 것이 가장 많고 잘 자라는 품종을 찾아내는 것으로부터 시작한다. 이후 다양한 환경에서 잘 자라는 품종, 인류의 기호에 따라서 선호하는 품종으로 점차 개량되어 나간다. 이를 위해 인류는 같은 종 내에서 다른 형질을 갖는 품종을 찾아서 서로 유전자를 교환하도록 교배하기 시작하였고 이를 전통 육종이라 한다. 분자 육종은 근대에 이르러 각종 분자 생물학적 기술이 발달하면서 과학적인 근거를 토대로 좀 더 효율적이고 정밀한 육종이 가능하게 되었다. 표현형에 관한 과학기술의 발달로 생물의 유전체 정보를 쉽고 정확하게 알 수 있는 현대에서는 필수 불가결하게 컴퓨터의 성능을 활용하여 연구를 진행하게 된다.
그림 1. 작물육종의 새로운 육종기술의 변화 과정 및 현재 전 세계적인 추세
in silico breeding이란 컴퓨터와 접목한 육종이란 뜻이며 NGS기반의 SNP detection 및 대용량 SNP chip을 통한 유전자형 분석, 기계학습을 통한 표현형 측정 등이 대표적이며 최종적으론 대용량 DB를 구축하여 필요한 품종을 탐색하여 육종하고 실제 소비자에게 필요한 정밀 육종이 가능하게 되며 이는 육종에 새로운 패러다임을 제시하고 있다.
기술소개 #
차세대 유전체 분석을 통한 육종 #
차세대 Sequencing 기술이 개발되고 생물 DNA 정보의 빅데이터 시대가 도래하였다. 2000년 초 인간 유전체가 완성될 때 투자된 비용과는 비교될 수 없을 만큼 저렴한 비용으로 대량의 DNA를 생산할 수 있게 되었고 이에 따라 세계적으로 생산되는 생물 DNA 정보는 기하급수적으로 늘어나고 있다. 나아가 차차세대 Sequencing 기술은 더 길고 정확한 서열을 제공하기 위해 쉴 새 없이 개발되고 발표되고 있다. 이에 발맞추어 DNA를 분석하는 유전체학 역시 급속히 발달하고 있으며 이러한 데이터 기반 생물학은 컴퓨터학과 생물학의 융합 학문으로서 새롭게 대두하고 있다. 일단 NGS를 통하여 표준유전체가 구축될 경우 SNP 기반의 육종 마커세트 개발이 가능하다. SNP는 DNA 서열에서 일어나는 단일 염기의 변이로 유전체 전체적으로 가장 빈번하게 나타나며, 안정적으로 이용할 수 있는 장점이 있다. 이에 따라, 최근 여러 작물에서 NGS를 통해 해독된 유전체 정보를 기반으로 한 genome-wide SNP 발굴로 대량의 분자 마커를 빠르게 확보하고 있다.
그림 2. SNP 분 자마커 개발 전략
육종 마커세트로 많이 사용되는 기술은 illumina chip, Affy chip, Fluidigm chip 등이 있다. illumina 및 Affy chip의 경우 약간의 기술적인 차이는 있지만 대용랑 SNP를 기반으로 육종재료들을 전반적으로 스캔하고 분석할 수 있으며 해당 기술을 통하여 GWAS 분석 등에 많이 이용된다. 또한 GS(genomic selection)로도 많이 활용되며 해당 정보들을 공유하고 DB화하려는 노력이 계속되고 있다. Fluidigm chip의 경우 분자 마커가 96개 정도만 활용되어 전체적인 유전체 정보를 스캔하는 용도로는 적합하지 않지만, 특정 육종 주제에 맞춘 개체를 선발하는데 특화되어 있다.
기계학습을 통한 표현형 연구 #
기계학습 중 가장 활발하게 연구되고 있는 분야 중 하나인 image recognition은 표현형 연구에 적극적으로 활용되고 있다. 육종에서 빼놓을 수 없는 것이 생명현상의 관찰(표현형)이기 때문에 복잡한 이미지 영상에서 원하는 값을 정확히 추출하는 것이 중요하다.
식물의 표현형을 측정하거나, 표현형을 통해서 정확히 구분하는 작업은 상당한 훈련 기간과 전문지식을 필요로 하는 기술인데 대량의 표현형을 빠르게 구분해야 하는 경우, 정해진 sampling 시기에 많은 개체의 다양한 표현형 항목을 조사해야 할 때 이러한 표현형 데이터를 사람의 힘으로 정확하게 추출하기는 쉬운 일이 아니다. 그리고 표현형이라는 데이터 특성상 관찰자의 주관이 포함되기 때문에 데이터의 재현성도 현저히 떨어진다. 앞에서 언급했던 GS모델 역시 정확한 표현형이 전제되지 않으면 모델의 신뢰도 역시 현저히 떨어질 것을 생각해본다면 표현형 조사의 객관화 및 자동화가 중요한 문제라는 것을 알 수 있다.
표현형을 이미지화해서 분류하는 흥미로운 연구 중 하나는 잡초와 작물을 구분하는 분류기이다. 잡초는 작물의 생산량을 떨어뜨리는 주요 원인 중 하나이며 잡초 제거를 위해 투자되는 인력 및 제초제는 작물생산의 투자비용을 올리는 원인이 되기도 한다. 나아가 과하게 살포된 제초제는 환경오염의 주범이기도 하다.
미국의 Blue River 사에서는 이러한 문제를 image recognition 알고리즘으로 풀어서 See & Spray이라는 전략을 구축하였다. Imaging sensor가 부착된 트랙터가 넓은 밭을 체계적으로 움직이면서 막 발아한 식물들의 이미지를 촬영함과 동시에 기존에 훈련되어있는 알고리즘이 작물인지 잡초인지를 순간 판단하고 잡초에만 국소적으로 제초제를 살포한다. 이를 통해 작물에는 제초제의 영향이 거의 닿지 않지만 잡초에는 집중적으로 살포되기 때문에 그 효과가 최대화될 수 있으며 실제로 사용되는 제초제의 양이 상당히 줄어들기 때문에 환경영향 역시 최소화할 수 있다.
그림 3. See & Spray 기술, 적색네모 : 잡초, 녹색네모 식물
대용량 DB를 통한 개인 맞춤형 정밀 육종 #
차세대 유전체 분석을 통해서 생성된 유전형 data, 기계학습을 통해서 생성된 표현형 data가 있다고 하더라도 이를 활용하기 위해선 DB 구축이 필수적이다. 해당 DB가 구축되면 유전체와 표현형을 토대로 적재적소에 필요한 품종들을 선발할 수 있으며 또는 완벽하게 부합하지는 않지만, 개선의 여지가 있는 품종들을 탐색할 수 있다. 또한, 개인 유전체 분석에 드는 비용이 저렴해져 정밀의료가 활발히 활용되고 있으며 이를 응용한 개인 유전체 맞춤 식품추천 DB 등의 사업도 활발하게 이뤄지고 있다.
그림 4. 개인 유전체 맞춤 식품추천 DB의 원리
이러한 사례를 통해서 육종 또한 개인 맞춤 품종을 개발하는 방향으로 제시할 수 있다. 예를 들어 고추와 파프리카는 Capsicum annuum로 생물학적으로 같은 종이지만 주사용 용도 및 칼로리, 구성성분 모두 다르다.
그림 5. 동일 종 고추와 파프리카 차이 이렇듯 육종을 통해 대사성분을 조절할 수 있고 각 개인에게 가장 적합한 품종들을 추천하여 새로운 육종방향을 제시할 수 있다.