Skip to content

Genbank #
Find similar titles

Structured data

Category
Analysis

Genbank #

NCBI(National Center for Biotechnology Information)에서 운영하고 있다.

Genbank 플랫파일 #

Genbank 플랫파일은 Header, Feature, Sequence부위 세 가지로 나뉘어져 있다.

서열 이외에 누가, 언제 등록했고, 어떤 서열인지, 각 부분별 주석과 같은 다양한 메타 정보를 함께 표현하기 위한 포맷으로 FASTA + GFF = Genbank 라고 볼 수 있다.

자세한 설명은 링크를 참조한다.

Header #

  • LOCUS : Accession number, 분자의 길이, DNA/RNA종류, 날짜등을 나타낸다.
  • DIFINITION : 해당 유전자에 대한 설명이다.
  • ACCESSION : 다섯자리 혹은 여섯자리로 된 영숫자 혼합의 ID이다. 이 ID는 변경이 불가능하여 고유 ID로 사용할 수 있다.
  • VERSION : ACCESSION 뒤에 숫자로 나타내어 수정본을 나타낸다. 수정이 되어도 ACCESSION이 변하지 않는 대신 VERSION을 기입하여 업데이트를 나타낸다.
  • KEYWORD : 유전자에 대해 설명하는 단어이다.
  • SOURCE : 이 유전자가 어떤 동식물의 것인지 표시해준다.
  • ORGANISM : 유기체및 분류수준을 나타낸다.
  • REFERENCE, AUTHORS, TITLE, JOURNAL, PUBMED, REMARK : 해당 유전자와 관련된 논문의 연번과 저자, 논문제목과 개제된 논문의 종류, pubmed ID등을 나타낸다.

Feature #

서열 중 특징을 나타내는 구간의 범위와 annotation을 표시해준다. gene, CDS, exon, intron등의 구간이 나타나있다.

Sequence #

유전자의 시퀀스를 나타내주는 구간이며, 알파벳 소문자로 적혀있다. 한 줄에 60개의 염기가 있으며 이는 10개씩 띄어쓰기로 끊어져있다.

Incoming Links #

Related Data Sciences #

Related Bioinformaticses #

Suggested Pages #

0.0.1_20140628_0