Skip to content

Pfam #

Find similar titles

9회 업데이트 됨.

Edit
  • 최초 작성자
    Myunghee Jung
  • 최근 업데이트
    syp

Structured data

Category
Database

Protein Domain #

단백질 서열의 한 부분으로, 독립적으로 진화하고 기능을 가지고 있다. Protein은 하나 이상의 domain으로 이루어져 있으며, 그 기능은 각 domain이 가진 기능으로 나타난다. 두 개의 서열에서 동일한 domain을 가지고 있다고 하여 같은 기능을 하는 것은 아니지만 비슷한 기능을 하고 있다고 유추해 볼 수는 있다.

Pfam database #

Pfam은 단백질 패밀리의 데이터베이스이다, Hidden Markov models을 이용하여 일반화된 multiple sequence alignment 및 annotation 정보들을 가지고 있는 protein family들을 모아놓은 데이터베이스이다. 각 Pfam 데이터베이스 항목은 시드 정렬로 구성되어 있으며 HMMER 소프트웨어를 사용하여 Hidden Markov models(HMM)을 구축하는 형성한다. 그런 다음 프로파일 HMM을 pfamseq 라는 시퀀스 데이터베이스에 대해 Query 하고 큐레이팅 된 임계값 (가능한 알려진 오류 탐지 영역을 포함하여, 신중하게 선택)을 초과하는 일치 항목 전체를 프로파일 HMM으로 재정렬 후 하여 전체 정렬 파일을 생성한다. 각 항목은 가능한 문헌정보에서 파생된 기능 정보를 주석으로 사용하며, 특히 자원의 확장과 패밀리의 가능성을 개선하기 위해 pfamseq 는 UniProtKB 전체 보다는 UniProt Knowledgebase 내 Reference Proteomes에 속하는 서열을 사용한다. Pfam은 양질의 Pfam-A와 Pfam-B로 나누어지는데 Pfam-A는 도메인 중 대표로 사용이 가능한 경우이고 Pfam-B는 Pfam-A로 찾지 못할 경우 기능적으로 보존된 영역인지를 확인할 때 사용된다.

Image

그림1. Pfam 홈페이지 (http://pfam.xfam.org/)

Pfam update (2020-2019) #

A new Pfam-B is released #

HMM 기반 Pfam 엔트리들 (Pfam-A) 외에도 Pfam-B라는 자동 생성된 비 HMM 기반 엔트리를 생성하였다. Pfam-B 엔트리는 ADDA 알고리즘을 UniRef-40의 모든 BLAST 검색에 적용하고 Pfam-A가 포함하는 모든 영역을 제거하여 생성 된 클러스터에서 파생되나, 이러한 방식으로 Pfam-B를 생산하는 오버 헤드가 너무 커져서 Pfam 28.0부터 Pfam-B 패밀리를 중단하였다. Erik Sonnhammer는 MMSeqs2 소프트웨어를 사용하여 기존의 방법을 대신 새로운 Pfam-B를 생산하고 있다. 새로운 Pfam-B는 Pfam-A에 포함되지 않은 UniProtKB 서열은 MMSeqs2를 사용하여 군집화되었고 각 군집의 다중 서열 정렬은 FAMSA로 생성된다. 이로 인해 평균 99 개의 서열 (최대 40912 서열)을 포함한 136,730 Pfam-B 패밀리들이 생성된다. 새로운 Pfam-B는 Pfam FTP 사이트 [[https://xfam.wordpress.com/2020/06/30/a-new-pfam-b-is-released/Pfam-B.tgz]]에서 제공하며, Pfam 웹 사이트에 통합할 계획은 없지만 향후 Pfam 릴리스 마다이를 생성한다고 한다.

Pfam 33.1 is released #

Pfam 33.1에는 총 18259 개의 패밀리(familes)과 635 개의 클랜(clan)을 구축한다. 32.xx 이후, 355 명의 새로운 패밀리(familes)를 정의하였고, 25개의 패밀리를 삭제하였다. Google은 Pfam에서 누락 된 패밀리 또는 도메인에 대한 사용자의 의견을 정기적으로 접수하며 일반적으로 각 릴리스마다 많은 사용자 제출 패밀리를 추가하고 있다. 이러한 Pfam 항목의 작성자로서 제출자 이름과 ORCID 식별자를 포함한다.

The Pfam protein families database in 2019 #

Pfam 32.0의 패밀리(families) 수는 총 17,929개로 크게 증가되었다. 주요 개선사항으로 도메인 경계의 개선, Pfam 클랜(clan)으로의 분류 및 기능적 주석을 포함하여 기존 패밀리들을 개선하려는 노력과 함께 새로운 추가 기능이 결합 되었다. 또한 Pfam 내에서 Tandem repeat 패밀리(families)의 정의를 개선하기 위해 RepeatsDB 리소스와 협력하고 있다. 구조적 분류 데이터베이스, 즉 단백질 도메인의 진화적 분류 (Evolutionary Classification of Protein Domains, ECOD)와 유의미한 비교를 수행하여, uncharacterized families(EUF)를 기반으로 825 개의 새로운 패밀리를 만들었으며, 또한 Pfam 유형 정의를 SO 용어로 매핑하여 Pfam 항목을 SO (Sequence Ontology)에 연결한다.

Releated site #

Reference #

Incoming Links #

Related Articles #

Suggested Pages #

0.0.1_20231010_1_v71