Skip to content

Modeller #
Find similar titles

Structured data

Category
Software

단백질 구조 예측 #

생물정보학의 가장 기초 이론이자 꽃은 상동성(homology) 일 것이다. 단백질의 구조에 있어서도 이러한 상동성 원리를 이용해서 구조를 예측 할 수 있다. 구조의 종류는 단백질 구조 페이지를 참조하고 여기에서는 상동성 원리를 이용한 단백질 3D 구조 예측 방법 및 분석 tool을 소개하고자 한다.

단백질 모델링(modelling) #

상동성 구조 예측은 모델링을 이용해서 진행이 된다. 모델링(modelling)이란 직역을 하면 어떠한 작업의 마무리를 복사하거나 또는 대체가 가능한 예비조각을 말한다. 즉 다시 말하면 모델링을 하기 위해서는 어떠한 주형(template)이 필요하다는 뜻이다. 그렇기 때문에 homology modelling 은 주형을 이용하며, 이 주형은 상동성을 갖는다.

모델러(modeller) #

상동성 기반의 구조 예측으로 가장 유명한 분석 도구이다. 실제로 상용 프로그램인 Discovery Studio 조차도 modeller를 활용할 정도로 완성도가 높은 프로그램이다.

모델러의 시초 #

모델러는 1993년도 샌프란시스코의 켈리포니아 대학의 Andrej Sali 교수가 만들었으며, 현재까지도 Sali Lab에서 최신프로그램(version 9.14)을 제공하고 있다.

모델러 시초

그림1. 모델러 시초

모델러의 원리 #

모델러의 원리는 단백질 3D 모델의 구조를 공간적인 제약을 바탕으로 모델링한다. 즉 여러개의 구조적 특징을 가지고 구속 조건들을 만들어 예측하게 된다. (좀 더 자세히 말하면, 구조가 유사한 주형 단백질을 선정 후 이를 토대로 구조를 인식한 후 다중 서열 정렬 방법을 통해 주형 구조와의 서열정렬 정보와 단백질 각 원자들간의 거리, 결합각, 비틀림각 등의 정보를 일종의 구속 조건으로 사용하여 구조를 예측한다. 물론 추가적으로 단백질 구조의 기본 특성 정보에 대한 에너지 함수등도 사용된다.)

모델링 방법

그림2. 모델링 방법

모델러는 처음에는 표준 FORTRAN 90로 작성 되었지만 이후에 파이썬으로 바뀌어 유저들이 소스를 접하기에는 편하다.

모델러 사용법 소개 #

먼저 여러 가지의 구조의 특징에 따라 예측되는 스크립트 파일들이 있으나 일반적인 서열기반의 single structure를 기준으로 진행하면, 구조 예측을 위한 단계는 all-steps에 있는 3가지의 스크립트 파일들(search.py, compare.py, get-model.py)과 추가적으로 build-profile.py, align2d.py 의 2가지 스크립트 파일이 사용된다. (테스트 시 사용한 모델러 버젼은 modeller9v7 버젼이기에 최신 버젼과 다를 수 있음)

modeller9v7 구조

그림3. modeller9v7 구조

homology modeling은 자체 modeler에서 제공되는 스크립트 파일을 이용하여 수행된다. 미지의 서열을 PIR 포멧을 기반으로 준비하고 각각의 스크립트 파일을 순서대로 수행한다. (build_profile.py → compare.py → align2d.py → model-single.py → evaluate_template.py & evaluate_model.py → plot_profiles.py)

마지막으로 최적의 예측구조를 선정하기 위해서는 molpdf / DOPE / GA341 이라는 modeller에서 제공하는 evaluation 점수를 기반으로 선정할 수 있다.

molpdf modeller에서 제공되는 function 점수로는 이는 각각의 PDB 파일의 ‘REMARK’ 항목에서 측정된 점수로 주로 낮은 순위로 선택에 용이하다. 그러나 이 선택은 절대적인 것은 아니다. 그렇기 때문에 추가적으로 검증이 더 필요하다.
DOPE(Discrete Optimized Protein Energy) 단백질 구조 예측에 있어서 모델의 품질을 평가하는 점수로 주로 낮은 순위로 선택에 용이하다. 그러나 이 선택이 절대적인 것은 아니다. 그렇기 때문에 추가 검증이 필요하다.
GA341 모델을 만들기 위하여 사용한 정렬된 서열의 identity 점수와 compactness(밀집점수로 PDB의 3D 모델에서부터 얻어진다.) 그리고 통계적인 잠정적인 Z-score를 합한 점수로써 주로 0.0에서 1.0으로 분포한다. 0.0인 경우 worst라고 명하며, 1.0인 경우 native-like라고 한다. 그러나 이는 상태만을 언급하는 것으로 절대적으로 예측된 모델이 좋다 좋지 않다라고 정의할 수 없다. 그 이유는 예측되는데 사용한 template에 따라 달라지기 때문이다. 다시 말하면 0.0이라고 해도 예측된 모델이 좋지 않다라고 할 수 없고 다만 상태만을 언급할 수 있다.

그림4는 plot_ profile.py를 실행 후 의 결과로 DOPE을 확인 할 수 있다.

plot_profile.py 결과

그림4. plot_profile.py 결과

(출처:https://salilab.org/modeller/tutorial/basic.html)

Suggested Pages #

0.0.1_20140628_0