Skip to content

Swiss-prot #
Find similar titles

Structured data

Category
Database

Swiss-prot #

SWISS-PROT은 단백질 서열 정보 이외에 단백질의 기능과 구조, 각 도메인에 관한 정보, post-translational, modification, variants에 대한 정보 등 관련된 모든 정보들을 잘 가공하여 구축한 단백질 데이터베이스이다. 다른 단백질 데이터베이스와의 차별은 전문가에 의하여 선별된 단백질 서열정보와 타 데이터베이스들과의 유기적인 연결을 유지하고 있어 기존의 자동화로 구축된 데이터보다 질적으로 우수하다는 것이다. 즉 쉽게 말하면, 다른 데이터 보다 좀 더 신뢰가 가는 데이터이다. 1986년 제네바 대학의 MedicalBiochemistry Amos Bairoch 연구그룹에 의해 만들어 졌고 ExPASy 사이트를 통하여 제공되었으며(그림1), 2002년 이후로는 UniProt consortium 에 의하여 운영되며, UniProt website에서 검색이 가능하다.(그림2)

ExPASy

그림1. ExPASy 내 Swiss-Prot

UniProt

그림2. UniProt 홈페이지

TrEMBL 과 Swiss-prot #

TrEMBL은 1996년 genome project로 늘어나는 데이터를 처리하기 위하여 생성이 되었으며, 아직 정리되지 않은 EMBL의 유전자 서열들을 translation 시켜 구축한 SWISS-PROT의 1 차 데이터 베이스로 활용이되며, 주로 데이터의 annotation은 자동으로 이루어지고, 검증은 되지 않았다.

Swiss-prot 데이터 현황 #

올해(2015/01/17) 버젼으로는 547,357개의 sequence entries와 194,874,700개 아미노산으로 구성된다. 특히 89,451,166개의 sequence entries로 구성된 TrEMBL과 비교해보면 1%도 안되는 매우 적은량의 서열만 수작업으로 선별 된것을 알 수 있다.(그림3)

Swiss-Prot Taxonomy 별 분포

그림3. Swiss-prot Taxonomy별 분포

Swiss-prot curation(선별) 과정 #

Swiss-Prot의 데이터 선별 과정은 총 6가자의 단계로 이루어지며, 각 단계 모두 큐레이터의 수작업이 반영된다.

1)Sequence curation(서열 선별) #

큐레이터의 우선순위에 의하여 수작업으로 단백질 서열을 선별하고 blast 등으로 확장 후 서열 관련 정보(alternative splicing, natural variations, frameshifts, incorrect initiation sites, incorrect exon boundaries 등)를 통합 후 문서화 한다. 이 단계에서는 큐레이터에 의하여 정확성과 품질이 결정되기 때문에 가능한한 완전하고 정확하다는 것을 확인한다.

2)Sequence analysis(서열 분석) #

이 단계는 선택된 단백질 서열의 분석단계로 분석 tools을 이용한다. 분석된 결과(post-translational modifications, subcellular location, transmembrane domains and protein topology, domain identification and protein family classification 등)는 수작업으로 통합 및 리뷰한다.

3)Literature curation(논문 선별) #

관련 논문을 읽고 해당하는 논문상의 정보(protein and gene names, function, catalytic activity, cofactors, subcellular location, protein-protein interactions, patterns of expression, diseases 등)를 추출하여 해당 서열과 연결한다. 논문상의 내용과 단백질 분석 결과를 서로 비교하여 연결한다.

4)Family-based curation(패밀리 기반의 선별) #

추정된 homologs 정보를 선별하는 과정으로 Reciprocal Blast 와 계통적 자원을 사용한다.

5)Evidence attribution(근거 규명) #

사용자가 모든 정보를 역추적 및 평가가 가능하다록 수작업(annotation) 과정 항목에 정보를 연결하여 제공한다.

6)Quality assurance(품질 보증) #

수작업을 통한 데이터는 UniProtKB/Swiss-Prot 통합되기 전에 품질 보증 과정을 거친다.

출처 #

http://www.uniprot.org/

http://web.expasy.org/docs/swiss-prot_guideline.html

Incoming Links #

Related Bioinformaticses #

Suggested Pages #

0.0.1_20140628_0