Skip to content

DNA Barcode #
Find similar titles

Structured data

Category
Business

정의 #

사람을 구분해주는 코드로 주민등록번호를 사용하는 것처럼 생물도 종별로 구분을 하기 위해 사용하는 구분 코드가 있습니다. 바로 이 구분 코드를 'DNA 바코드'라고 합니다. DNA 바코드는 가까운 종이라도 생물체마다 다르게 가지고 있는 유전정보인 DNA 염기서열의 차이를 이용해서 생물종을 구분하는 식별코드로, 생물에게 있어서 하나의 신분증과 같은 역할을 할 수 있습니다. 전통적으로 생물을 구분지을 때 사용되던 형태학적 종 분류보다 훨씬 정확하게 종을 판별할 수 있어 오늘날 그 활용도는 매우 높습니다.

DNA Barcode의 장점 #

  • 형태학적 구분을 비롯한 기존의 생물 종 구분법의 경우 생물의 전체 모습이나 전반적인 특징을 대상으로 구분기준을 잡아야 했지만 DNA 바코드를 이용할 경우 생물체의 작은 부분을 통해서도 구분이 가능합니다. 이러한 장점 덕분에 식품이나 약재처럼 생물이 형태가 변하게 되거나 훼손, 오염이 되더라도 종 구분을 할 수 있습니다.
  • 생물이 발달이나 변태과정 중 어느 위치에 있더라도 동일한 정보를 얻을 수 있습니다.
  • 형태적으로 유사하거나 다른 특징들이 비슷한 생물도 쉽게 구별해낼 수 있습니다.
  • 종을 구분하는 판별절차나 방식을 표준화 및 규격화하고 자동화를 할 수 있습니다.
  • 적재된 DNA 바코드 데이터를 바탕으로 새로운 종을 찾아내기에 유리합니다.

연구배경 #

'버드 스트라이크’라는 외래어 명칭으로 잘 알려진 여객기에 대한 조류충돌 사고가 빈번하게 일어나면서 조류충돌에 따른 피해를 줄이기 위한 다양한 방법 중 지구상의 생물종을 구별할 수 있게 해주는 DNA 바코드 (DNA Barcode)가 떠오르게 되었습니다. 이는 조류충돌 사고 방지를 위한 새로운 해결책으로 대두되었습니다.

DNA 바코드 데이터의 특징 #

DNA 바코드 데이터는 크게 DNA 서열과 이 서열의 상세한 정보들을 담고 있는 메타 정보들로 구성된다. 학계에서 공식적으로 지정된 서식이나 데이터 작성에 관한 규정은 없지만, 연구자들 사이에 DNA 바코드 연구를 하는데 필수적으로 필요하다고 여겨지는 항목들은 존재한다. 이러한 항목들은 DNA 바코드 데이터를 관리, 공유하는 데이터베이스에서도 공통적으로 사용되지만 차이가 있기 때문에 각 항목들에 대한 이해도 필요하다.

DNA 서열 #

일반적으로 알려진 것처럼 DNA 서열은 A, T, G, C 네 가지 코드로 구성된다. 하지만 시퀀싱 기술(Sanger sequencing) 특성상 서열 결정 시 애매한 서열(ambiguous sequence)가 발생하게 되며 이를 표현하기 위한 별도의 코드가 필요하게 된다. 예를 들어 시퀀싱 원본 파일(ab1)을 봤을 때 한 위치에서 A의 시그널과 G의 시그널이 비슷한 세기로 동시에 나타나 A와 G중 특정 염기서열로 결정하기 어려울 때는 퓨린(puRine) 이라는 의미의 R 이라는 문자열로 표기할 수 있다. 이처럼 명확하지 않은 서열도 표현하는데 필요한 표기 규칙을 IUPAC(International Union of Pure and Applied Chemistry, 국제 순수·응용 화학 연합)에서 정하였으며 대부분의 DNA 서열 처리 프로그램에서도 공통적으로 이용되고 있다. 종종 각 서열의 염기서열 배열만 표기하지 않고 다른 서열들과 다중서열정렬 되었을 때 각 염기서열의 정렬 위치 관계를 표기하기 위해 "-" 를 포함하거나, consensus 서열과 차이가 없다는 의미로 "." 또는 "*" 문자열을 포함하는 경우도 있지만, 공식적으로 규정된 문자열이 아니기 때문에 이를 인식하지 못하는 프로그램들이 있다. 이러한 경우 텍스트 에디터의 ‘바꾸기’ 기능을 이용하거나 별도의 프로그램을 만들어 해당 문자열을 삭제 후 이용할 수 있다.

메타정보 #

서열 정보와 다르게 메타 정보는 정해진 규격이 없지만, 연구를 위해 기록의 필요성이 공유되는 정보들이 있다. 기본적으로 DNA 바코드 데이터는 DNA 염기서열 데이터이지만 이 서열은 어디서 살고 있는 어떤 종의 유전체 서열 중 어떤 영역을 무슨 프라이머 세트를 이용하여 얻어낸 것인지에 대한 정보들이 함께 필요하다.

표본정보 #

어디서 살고 있는지에 대한 정보는 개체 즉 표본 단위의 정보이며 이를 표현하기 위한 다양한 필드(채집지, 국가, 주소, 위도, 경도, GPS, 고도 등)들이 있을 수 있는데 일반적으로 표본에 대한 정보는 별도의 테이블로 관리하고 서열 정보에서는 해당 표본의 번호(ID)만 함께 기록하여 관리한다.

종정보 #

종에 대한 정보는 단순히 대상 종의 학명을 의미하는 것이 아니라 계통 분류 정보를 포함한다. 일반적으로 학명은 린네가 확립한 이명식 명명법으로 속명과 종명을 이탤릭체로 작성하되 속명의 첫 글자는 대문자로, 종명의 첫 글자는 소문자로 표기하도록 한다. 경우에 따라서 학명의 뒤에 명명자와 명명 연도가 함께 명시되기도 한다. 이때 명명자의 이름이 알파벳으로만 이뤄지지 않고 알파벳과 유사한 다른 언어의 문자로 표기되는 경우 컴퓨터의 기본 문자셋에서 인식하지 못해 에러가 나거나 해당 문자를 출력하지 못하는 경우도 있기 때문에 유니코드 문자셋을 이용하여 처리해야 한다. 일반적으로 ‘UTF-8’ 이라는 유니코드 문자셋을 많이 활용한다. 계통분류 정보는 일반적으로 계, 문, 강, 목, 과, 속, 종의 분류 체계로 모든 종들을 분류하는 기준을 의미하는데, 분류군마다 또는 연구 집단, 연구 방법 등에 따라 발생하는 견해 차이로 인하여 다양한 계통분류체계가 존재한다. 가장 많이 사용되는 계통분류체계는 NCBI의 Taxonomy 데이터베이스이다. 국립생물자원관에서는 자생종의 계통분류체계를 체계적으로 확립하고 정리한 국가생물종목록을 배포하고 있으며, 자생종의 모든 정보는 국가생물종목록의 계통분류체계를 기반으로 등록, 관리되고 있다.

마커명 #

다음으로 고려해야 할 정보는 염색체 상에서 DNA 바코드 서열의 위치에 관한 항목이다. 흔히 마커명 이라고 부르는 DNA 바코드 이름은 ATGC로만 이루어진 긴 서열 중에서 바코드로서의 정보를 나타내는 부분에 부여되는 이름이다. 각 마커는 COI(Cytochrome c oxidase subunit I) 처럼 특정 효소 단백질의 일부로 발현되면서 바코드 서열의 특징도 갖고 있거나, ITS(Internal Transcribed Spacer) 처럼 특정 유전자 사이에 존재하는 non-coding 영역에 존재하는 마커도 있다.

프라이머 정보 #

마커명이 그 서열이 핵, 엽록체, 미토콘드리아 중 어디에 있는 염색체에 있는지는 말해 줄 수 있지만 어떤 염색체의 몇 번째부터 몇 번째까지의 서열인지는 알려주지 않는다. 실제로 모든 염색체의 서열과 유전자 구조 분석이 끝난 종이 아니라면 이렇게 정확한 위치 정보는 알 수 없으며, 계통 분석에서 필요하지 않다. 연구 대상 DNA 바코드 서열의 정확한 위치는 모르지만, PCR법을 이용하여 특정 서열 부분만 증폭시켜 이용하기 때문이다. 이를 위하여 우리는 특정 서열을 증폭하는 PCR 법에 필요한 프라이머 서열을 기록하고 함께 공유해야 한다. 프라이머 정보는 Forward, Reverse 프라이머 서열 정보가 항상 함께 있어야 한다. 같은 마커를 대상으로 한다 하여도 분류군에 따라서 PCR 증폭이 더 잘되도록 프라이머를 디자인할 수 있기 때문에 대상 분류군에 대한 정보를 함께 보관해야 하며, 부가적으로, PCR 조건도 함께 남길 필요도 있다.

DNA Barcode 종류 #

  • Universal DNA 바코드 : 식물쪽에 주로 사용되는 범용성 핵심 바코드로, 식물의 엽록체에 존재하는 matK, rbcL, trnH-psbA, 그리고 rDNA에 있는 ITS가 있습니다.

  • NGS기반의 신규 Super DNA 바코드 : NGS와 각종 생물학적 기법의 발달로 기존의 방식보다 저렴하고 효율적인 전체 유전체 분석이 가능해졌고, 이를 이용한 새로운 바코드 기술이 연구되고 있는데 이 중 NGS를 이용한 대표적인 기법이 Super-barcode입니다. Super-barcode는 일부 base-paira만을 가지고 하던 기존 Universal DNA 바코드 방식에 비해 훨씬 높은 정확도를 가지고 있지만, 상대적으로 많은 비용과 시간이 든다는 극복과제를 안고 있습니다.

DNA Barcode 데이터베이스 국내외 현황 #

  • 2003년 캐나다의 진화생물학자인 폴 허버트(Paul Hebert)는 생물을 모양과 특성이 아닌 DNA 바코드로 구별하자고 제안하였으며, 2004년에는 동물과 식물, 진균류를 포함한 지구상의 생명자원에 대한 체계적인 관리와 생물다양성을 목표로 ‘국제생물DNA바코드컨소시엄(CBOL, Consortium for the Barcode of Life)’이 출범하였습니다. 현재 전 세계 50개국 200개 기관이 참여하고 있는 해당 프로젝트를 통해 방대한 생물 데이터들이 축적되고 있으며, 이러한 생물 데이터들은 다양한 분야에서 유용하게 쓰이게 될 것으로 생각됩니다.

  • 중국이 자국 근해에 서식하는 각각의 해양생물종을 빠르고 정확하게 판별할 수 있는 DNA 바코드 데이터베이스 구축에 나섰습니다. 이 프로젝트는 앞으로 5년간 서해, 동중국해, 남중국해에 서식하는 어류, 원핵생물, 식물, 부유동물, 무척추동물 등 주요 해양생물 2천 종의 유전자 정보를 담은 DNA 바코드를 데이터베이스화하는 것을 목표로 하고 있습니다.

  • 농촌진흥청은 쉽고 빠르게 곤충자원의 종류를 판별해 자원 활용의 이용성을 높이고자 국내 곤충 1700종의 DNA 바코드를 분석해 데이터베이스를 구축했습니다. 1차로 분석해서 정리된 DNA 바코드는 총 1700여 종으로 국내에 기록된 전체 곤충 1만 4,000여 종의 12% 입니다. 이 DNA 바코드를 이용하면 최대 수개월 이상 걸리던 종 분류가 일주일 만에 가능하며, 형태적으로 혼동돼 구별하지 못했던 종을 식별해 신종 곤충뿐만 아니라 자연에서 이뤄지는 잡종 현상도 밝혀낼 수 있습니다.

BOLD SYSTEMS (BOLD) #

  • 캐나다가 중심이 되어 국제 바코드 컨소시엄인 cBOL에서 구축한 데이터베이스 사이트 BOLD는 세계적으로 많은 사람들이 이용하는 대표적인 바코드 데이터 수집/관리 시스템입니다. 2017년 9월 현재 18만의 동물종/6만6천 식물종/기타생물 2만여종에 대한 566만 개의 바코드 데이터를 확보하고 있습니다.

  • BOLD는 자체적인 바코드 관리 코드인 BIN(Barcode Index Numbers)을 각 바코드에 부여하고 있습니다.

iBOL(international Barcode Of Life) #

iBol은 2010년 25개국의 생물 관련 학자들이 모여서 구성된 바코드 관련 컨소시엄으로 비영리로 운영되고 있으며 활발한 교류를 통해 바코드 레퍼런스 라이브러리를 풍부하게 구축하기 위해 노력하고 있습니다.

cBOL(The Consortium for the Barcode of Life) #

cBOL은 Alfred P. Sloan 재단의 지원을 받아 2004년 출범한 컨소시엄으로, 생물 종을 구분 짓는 국제 표준으로서의 DNA 바코드 데이터 구축을 진행하고 있습니다. 여기서 나온 데이터는 BOLD 데이터베이스에서 적재 및 관리됩니다.

Reference #

Incoming Links #

Related Data Sciences #

0.0.1_20140628_0