Skip to content

유전자 발현 분석 #
Find similar titles

Structured data

Category
Analysis

Public expression data #

Gene에 대한 서열정보는 NCBI, 그리고 Protein에 대한 검증된 상세한 정보는 SWISS-PROT에 공개된 것과 같이 유전자 발현을 분석하기 위해서 사용된 Microarray 실험데이터들을 공공 데이터베이스에 표준화된 포맷으로 저장하고자 하는 취지로 만든 것이 NCBI의 GEO와 EBI의 ArrayExpress이다.

하지만, Microarray 데이터는 실험 결과에 영향을 주는 파라미터들이 다양하고 이들을 상호 비교하기에는 여러가지 문제점이 발생한다. 동일한 암세포의 RNA 샘플을 이용하여 분석한 Microarray 실험 분석을 한다고 하더라도 어떤 플랫폼을 사용하는지 어떻게 실험을 하는지에 따라서 결과는 상이하기 때문에 어떤 결과를 선택해야되는지 어려움이 있다.

NCBI에서 유방암(Breast Cancer)에 대한 검색을 하면 141개의 DataSet와 1,989개의 Serie, 47,730개의 Sample들이 35개의 다른 플랫폼으로 구성된 정보를 확인할 수 있다. 이들은 또한 Homo sapiens, Mus musculus, Rattus norvegicus의 3개 종에 대한 다양한 정보를 보유하고 있으므로 이들을 통합 분석한다면 유방암에 관련된 특화된 정보를 추출할 수 있을 것이다.

유전자 발현 공공데이터베이스를 활용하여 인간, 마우스, 랫트, 돼지에 관련된 유전자들을 대상으로 하여 특정질환에 대한 고도로 발현된 유전자들을 발굴할 수 있으며, 이러한 유전자들을 대상으로 유전질환 치료제의 약물표적이 될 수 있다. 이러한 데이터베이스를 활용할 경우 실험을 직접하지 않더라도 다양한 실험 조건의 결과들을 활용하여 가설을 검증할 수 있다는 장점이 있다. 2002년 이후, 상당수의 과학 저널은 유전자 발현 연구의 데이터를 GEO 또는 ArrayExpress와 같은 공공 데이터베이스에 저장해야된다고 주장을 해 왔으며, 이로 인해 공공데이터베이스화를 위한 표준화 컨소시엄이 구축되어 MIAME라는 표준화 안이 만들어지게 되었다. GEO는 NCBI에서 관리되고 있으며 ArrayExpress는 EBI에서 관리하고 있는 대규모 유전자발현 데이터베이스이다.

최근들어 Big-data에 대한 이슈가 커지고 있는 상황에서 GEOArrayExpress가 가장 잘 활용될 수 있는 Bio big-data 분석을 위한 데이터셋이라고 할 수 있다.

유전자 염기서열 정보는 NCBI, EBI, DDBJ에서 공동으로 데이터를 공유하고 있으며, 전세계의 생물학자들이 다양하게 활용하고 있다. 하지만 유전자 염기서열 정보보다 훨씬 복잡하고 활용가치가 높은 유전자 발현 정보는 제대로 활용되지 못하고 있는 상황이다. 건강한 사람과 질병에 걸린 사람과는 동일한 유전자를 보유하고 있으나 유전자 발현 패턴이 차이가 나며, 간세포와 뇌세포의 유전자 발현에서도 차이가 있다. 따라서, 이러한 유전자 발현 정보가 증가될 수록 질병의 발병과정을 연구하는데 소요되는 비용과 시간을 줄일 수 있으며, 선행 연구자들이 제공한 유전자 발현 데이터를 재활용하여 기존 연구에서 해결하지 못하였던 문제를 해결하거나 선행연구에서 간과하였던 새로운 사실을 찾아낼 수 있다.

GEO 데이터베이스에 축적된 데이터 중 실제로 활용되고 있는 데이터의 비율에 대해서 캐나다의 브리티시 콜럼비아 대학에서 데이터 재사용(data reuse)을 연구하는 헤더 피워워 박사에 의하면, 2005년과 2007년에 GEO에 축적된 데이터 중 과학자들에 의해 인용된 것은 2010년도 말 기준으로 20%와 17%라고 한다. 하지만, 피워워박사는 연구대상으로 사용한 PubMed Central에는 관련 논문의 1/3밖에 등재되어 있지 않으며, accession number를 기재한 논문만을 선별한 정보만을 이용하였으므로 생각보다 훨씬 더 많은 연구자들이 GEO를 활용하고 있으며, 생명과학 및 의학 연구의 방법론이 바뀌고 있다고 말하고 있다.

이미 축적되어 있는 광범위한 유전자발현 데이터에 접근할 수 있다는 것은 매우 가치있는 일이지만, 다른 연구자가 축적해 놓은 데이터를 이용하는 것은 만만하지가 않다. 만일 기존의 데이터들을 분석하여 상반된 결론이 도출될 경우, 그것이 '원본 데이터의 문제'인지 아니면 '분석과정에서 발생한 문제'인지를 분별하기가 어렵기 때문이다. 일부 연구자들이 GEO 데이터베이스를 신뢰하지 않고 있는 이유가 이와 관련이 있다. EBI의 생물정보학자인 알비스 브라즈마는 현재 유전자 발현 데이터를 제대로 활용하는 연구자들은 극소수에 불과하다고 한다. "기능적인 유전학 데이터를 재활용하려면 매우 새로운 능력이 필요하다. 연구자들 중에서 10개 이상의 데이터 세트를 다운로드 받는 사람은 드물며, 그나마 대부분의 연구자들은 다운로드 받은 데이터를 자신의 연구결과와 비교하는데만 사용하는 실정이다. 다른 연구자들의 데이터를 이용하여 완전히 새로운 결론을 도출해 내는 연구자들은 매우 드물다"라고 그는 말했다.

이러한 문제점들로 인해 상당히 값어치 있는 데이터를 제대로 활용하지 못하고 있는 실정이다. 이를 기반으로 하여 써모 피셔사는 GEO데이터베이스 전체를 정규화하여 암에 특화된 유전자 발현 패턴 정보를 구현하였으며 유료화하여 의미있는 정보를 제공하고 있다. 유사하게 NEBION사의 Genevestigator는 GEO데이터베이스 전체를 큐레이션하고 정규화과정을 거쳐서 전체 데이터를 Anatomy, Development, Stimulus, Mutation에 따라서 재분류하여 일반 연구자들이 기존의 유전자 발현 실험 정보를 손쉽게 이용할 수 있도록 정보를 재가공하여 제공하고 있다.


참조 : http://www.nature.com/news/gene-data-to-hit-milestone-1.11019

Incoming Links #

Related Bioinformaticses #

Suggested Pages #

0.0.1_20140628_0