Skip to content

COG database #
Find similar titles

Structured data

Category
Database

COG (Clusters of Orthologous Groups of proteins) database는 1997 처음 미생물 단백질의 functional annotation을 위해 만들어졌다. 이후 2003년까지 update되어오다 homologene의 개념으로 진핵생물의 ortholog database로 서비스 되다 최근 2014년에 다시 COG database로 update되어 NCBI(http://www.ncbi.nlm.nih.gov/COG/)에서 서비스되고 있다.

COG 알고리즘 #

3종 이상의 유전체내 모든 단백질을 대상으로 homology 분석을 통해 각 종내에 가장 유사한 단백질의 pair가 서로 동일하고 이러한 reciprocal pair가 최소 3종 이상에서 triangle을 이룰때 비로소 하나의 단백질 cluster가 형성된다. 단 3종내 모델 organism이 하나 이상 존재 하는것이 좋다.

COGs 분석 방법 #

1. blast #

3종 이상의 유전체내 모든 단백질을 대상으로 나머지 두종에 대해 서열 유사성을 바탕으로 가장 유사한 단백질을 하나씩 검색한다.

종1 ---(blast)--> 종2
종1 ---(blast)--> 종3
종2 ---(blast)--> 종1
종2 ---(blast)--> 종3
종3 ---(blast)--> 종1
종3 ---(blast)--> 종2

2.reciprocal match 검색 #

종1에서 종2에 가장 서열 유사성이 높은 단백질을 검색하고 종2에서도 종1에 대해 서열 유사성이 가장 높은 단백질을 검색하여 그 짝이 서로 동일한 reciprocal match를 이루는지를 확인 한다. 이후 이러한 reciprocal match가 3종이상에서 이뤄져 삼각형을 서로 이루게 되면 비로소 하나의 cluster를 형성하게 된다.

3.paralog gene 검색 #

한종내에서 진화론적으로 유리한 조건으로 특정 유전자가 multi-copy 유전자를 갖게 될경우 cluster를 이루는 reciprocal core genes들을 제외하고 여러개의 multi-copy 유전자들은 나머지 두종에서 core gene을 subject로 갖게 되는데 이들 단백질은 paralog로 인정하게 된다.

COG database 구성 #

bacteria를 비롯해 archaea를 포함한 미생물의 유전체내 모든 유전자의 functional annotation을 위해 일차적으로 이용 되는 COGs database는 2003년까지 알파벳 기호로 표기되던 category를 13년만에 update되면서 4631개의 COG id를 세분화 하여 부여하여 유전자 기능 정보를 세분화 하였다. COG database를 이용할경우 대부분의 유전자 기능 정보는 70% 이상 assign이 되는것으로 확인된다.

<2014년 update된 COGs database 현황>

Image

<2014년 update된 COG database의 유전체내 단백질의 기능정보 coverage>

Image

참고문헌 #

1.Galperin MY1, Makarova KS1, Wolf YI1, Koonin EV2.(2015) Expanded microbial genome coverage and improved protein family annotation in the COG database. Nucleic Acids Res. 2015 Jan;43(Database issue):D261-9. doi: 10.1093/nar/gku1223. Epub 2014 Nov 26.

(http://www.ncbi.nlm.nih.gov/pubmed/25428365)

0.0.1_20140628_0