Skip to content

분자생물학 자료형 #
Find similar titles

Structured data

Category
Biology

분자생물학 자료형이란? #

분자생물학의 발달로 생물학적 데이터들이 빠르게 급증했으며, 특히 1990년에는 게놈 프로젝트로 인하여 유전자 정보가 기하급수적으로 증가하였다. 주요 분자생물학 자료형으로는 central dogma를 중심으로 정보가 전달되는 모든 과정의 데이터들이 해당된다. 생물정보학은 이러한 방대한 분자생물학적 데이터들을 다루고 처리하기 위해 태동되었으며, 현재는 전세계적으로 다양한 생물정보 데이터베이스들이 존재한다.

Image

<그림1> Central dogma & data

분자생물학 데이터 #

분자생물학 분야에서 사용되는 관찰 또는 측정자료 중에서 생물정보학과 관련된 것을 정리하고, 각 측정자료별 플랫파일을 정리한다. 생물정보학 자료의 특징은 측정기술(즉 염기서열결정, 유전자 발현 분석 등)의 다양성, 대용량, 다양하고 다형적인 자료형이 특징이다.

  • 측정기술의 다양성: 같은 측정 대상에 대해서 다양한 방법이 있으며, 각 방법마다 장단점을 고려한 복합적으로 다루어야 한다.
  • 대용량 자료: 최근의 생물정보학 자료는 빅 데이터로 간주한다.
  • 다양(diverse)하고 다형적(heterogeneous)인 자료형: 동일 대상에 대해서 다양한 형식의 자료 파일이 실질적 표준(de facto standard)으로 사용되고 있다.

아래 표1은 Zien(1)의 분류에 최근 내용을 보완한 것이다.

표1. 유전체학에서 사용되는 자료와 그 표현

 Data Type and Details
 Representation
 Sequences
  • DNA : genome (hereditary information)
  • full-length mRNAs : spliced gene copies
  • ESTs : partial mRNAs
  • proteins
 
  • string over nucleotides {A, C, G, T}
  • string over ribonucleotides {A, C, G, U}
  • string over ribonucleotides {A, C, G, T}
  • string over amino acids (size 20)
 Variation
  • STR 
  • SNPs
  • CNVs
 
  • real vector
  • integer number and categorical attributes
  • di-graphs
 Structure
  • metabolites : positions and bonds of atoms
  • macromolecules (proteins, RNAs, DNA)
 
  • labeled graph embedded in 3D space
  • labeled graph embedded in 3D space
 Interactions
  • proteins with metabolites : receptors or enzymes binding ligands
  • proteins with DNA : transcription factors, etc.
  • proteins with proteins : complexes, etc.
 
  • real vector (binding energies)
  • binary (bipartite graphs)
  • binary (graph); Petri-net
 Expression / localization data
  • gene expression : abundances of mRNAs
  • protein expression : abundance of proteins
  • metabolite (small molecule) "expression" : concentrations of metabolites
  • protein localization : compartments of presence
 
  • real vectors or matrices
  • real vectors or matrices
  • real vectors or matrices
  • categorical
 Cell / organism data
  • genotype : single nucleotide polymorphism
  • phenotype : cell type, size, gender, eye color, etc.
  • state / clinical data : disease, blood sugar, etc.
  • environment : nutrients, temperature, etc.
 
  • vector of nucleotides {A, C, G, T}
  • vector of real and categorical attributes
  • vector of real and categorical attributes
  • vector of real and categorical attributes
 Population data
  • linkage disequilibrium : LOD score
  • pedigrees
  • phylogenies : "pedigree of species"
 
  • real numbers
  • certain (treelike) graphs
  • trees or generalizations of trees
 Scientific text
  • texts : articles, abstracts, webpages
 
  • natural languages texts (in English)

다양한 생물정보 데이터베이스 #

대표적인 국외 생물정보 데이터베이스로는 미국의 NCBI database와 유렵의 EMBL을 들 수 있다. NCBI에서는 분자생물학/생화학/유전학에 대한 지식의 저장 및 분석할 수 있는 데이터베이스로 전세계 생명공학 연구자들에 의해 방대한 양의 데이터들이 축적되어져 있다. 유럽의 EMBL은 회원국의 과학자들에게 생물정보학 서비스를 제공하고 있으며 핵산, 단백질 서열, 거대분자의 구조등에 대한 생물정보들을 제공한다. 또한, 대표적인 대사체 데이터베이스로는 HMDB를 들 수 있다. HMDB에서는 대사체의 구조, 물리적특징, 생물학적 특성등을 주로 다루고 있다. 이 밖에 더 다양한 생물정보 데이터베이스가 존재하며, https://en.wikipedia.org/wiki/List_of_biological_databases에서 확인할 수 있다.

References #

(1) Alexander Zien. A Primer on Molecular Biology. In Bernhard Shoelkopf, Koji Tsuda, and Jean-Philippe Vert, editors, Kernel Methods in Computational Biology, pages 3-34. London, A Bradford Book, 2004.

Incoming Links #

Related People #

Suggested Pages #

0.0.1_20140628_0