Interpretation DB - PolyPhen-2
#
Find similar titles
- (rev. 2)
- Jeong-han Seo
Structured data
- Category
- Database
Table of Contents
개요 #
게놈 데이터베이스(GDB)는 유전체에 존재하는 유전변이 정보들을 수집하고, 데이터베이스화함으로써, 유전체 맞춤의학 연구를 위한 기반을 다져왔다. 이와 관련하여 Interpretation DB 중, Poyphen, SIFT, InterVar에 대해서 알아보자.
PolyPhen-2 #
SNP/mutation 데이터베이스로써, PolyPhen-2 (Polymorphism Phenotyping v2)는 직접적인 물리적 및 비교 고려 사항을 사용하여 인간 단백질의 구조와 기능에 대한 아미노산 치환의 영향을 예측하는 도구이다.
주요 특징 #
PolyPhen-2는 Nonsynonymous SNP (nsSNP)의 기능적 영향 예측하는 코딩에 주석을 달기 위한 PolyPhen 도구의 새로운 개발으로 다음과 같은 특징이 있다.
- 고품질 다중 서열 정렬 파이프라인
- 기계 학습 방법에 기반을 둔 확률 분류
- 차세대 시퀀싱 데이터의 높은 처리량 분석을 위한 최적화
Overview #
인간의 유전적 변이의 대부분은 SNPs (Single-Nucleotide Polymorphisms)에 의해 표현되며, 이들 중 다수는 인간 개체 간에 표현형 차이를 유발한다고 알려져 있다. 우리는 구체적으로 Nonsynonymous SNP (nsSNP), 즉 코딩 영역에 위치한 SNP에 초점을 맞추어 유전자의 단백질 생성물에 아미노산 변화를 초래한다. 여러 연구에서 아미노산 대립 유전자 변이체가 단백질 구조 / 기능에 미치는 영향이 다중 서열 정렬 및 단백질 3D 구조의 분석을 통해 신뢰성 있게 예측될 수 있음이 나타났다. 초기 연구에서 증명했듯이, 이러한 예측은 희귀 대립 유전자의 과잉으로 간주하는 자연 선택의 영향과 관련이 있다. 따라서 분자 수준의 예측은 실제 표현형에 영향을 미치는 SNP를 나타낸다. PolyPhen-2는 아미노산 치환이 인간 단백질의 구조와 기능에 미치는 영향을 예측하기 위한 도구로써, 이 예측은 치환을 특징짓는 서열, 계통 발생 및 구조 정보를 포함하는 다수의 특징에 기초한다. 단백질에서 주어진 아미노산 치환을 위해, PolyPhen-2는 치환 부위의 다양한 서열 및 구조 기반 특징을 추출하여 확률 분류기에 공급한다.
Sequence-based features #
치환은 특정 부위, 예를 들어, 활성 또는 결합 또는 비 구형 (trans-membrane) 영역에서 발생할 수 있다. PolyPhen-2는 질의 단백질을 UniProtKB / Swiss-Prot 데이터베이스의 인간 단백질 하위 세트의 항목으로 식별하고 해당 항목의 기능 표 (FT) 부분을 사용한다. 또한, 아미노산 대체가 다음과 같은 주석이 있는 사이트에서 발생하는지 확인한다.
- DISULFID, CROSSLNK bond or
- BINDING, ACT_SITE, LIPID, METAL, SITE, MOD_RES, CARBOHYD, NON_STD 사이트
이 단계에서 PolyPhen-2는 쿼리 단백질에 주석이 달린 모든 위치를 BINDING, ACT_SITE, LIPID 및 METAL로 인식하고, 이후의 단계에서 공지된 3D 구조를 갖는 상동성 단백질에 대한 검색이 성공적이면 치환 부위가 이러한 중요한 단백질 기능 잔기와 공간적으로 접촉하는지를 확인한다.
PolyPhen-2는 또한 대체 사이트가 다음과 같이 주석이 달린 지역에 있는지 확인한다 :
- TRANSMEM, INTRAMEM, COMPBIAS, REPEAT, COILED, SIGNAL, PROPEP
주석 또는 예측된 막 간 영역에서의 치환을 위해 PolyPhen-2는 PHS trans-membrane 특정 매트릭스 점수를 사용하여 nsSNP의 가능한 기능적 효과를 평가한다.
PSIC profile scores for two amino acid variants #
아미노산 치환은 homologous 단백질 군의 위치에서 관찰된 치환 스펙트럼과 양립 할 수 없다. PolyPhen-2는 UniRef100 데이터베이스에서 BLAST 검색을 통해 입력 서열의 homologues를 확인한다. BLAST hit 세트는 다음과 같은 히트를 보유하도록 필터링 된다.
- 시퀀스 서열을 30-94% 범위의 입력 서열에 포함하고,
- 75 잔기 이상의 길이의 질의 서열과의 정렬
서열 동일성은 전체 정렬 길이로 나눈 일치 수로 정의된다. 그 결과 다중 정렬은 프로필 매트릭스를 계산하기 위해 PSIC 소프트웨어 (위치별 독립 계수)에 의해 사용되고, 매트릭스의 요소 (profile score)는 특정 위치에서 발생하는 주어진 아미노산의 위치와 임의의 위치에서 발생하는 이 아미노산의 가능성 (배경 빈도)의 대수 비율이다.
PolyPhen-2는 polymoprphic 위치에 있는 두 대립 유전자 변이의 프로파일 점수 차이를 계산한다. 이 차이의 큰 양의 값은 연구된 대체물이 단백질 군에서 거의 또는 전혀 관찰되지 않는다는 것을 나타낼 수 있고 또한, 쿼리 위치에서 정렬된 시퀀스의 수를 보여준다. 이 수치는 프로필 점수 계산의 신뢰성을 평가하는 데 사용될 수 있다.
Structural features #
알려진 3D 구조에 대한 아미노산 대체의 매핑은 대체가 단백질의 소수성 코어, 정전기 상호 작용, 리간드와의 상호 작용 또는 단백질의 다른 중요한 특징을 파괴할 가능성이 있는지를 보여준다. query 단백질의 공간 구조가 알려지지 않은 경우, 알려진 구조의 homologous 단백질을 사용할 수 있다.
Mapping of the substitution site to known protein 3D structures #
PolyPhen-2 BLAST는 단백질 구조 데이터베이스 (PDB)에 대한 query 시퀀스를 제공하며 기본적으로 주어진 기준을 충족하는 모든 hit를 유지한다 :
- 시퀀스 고유성 임계 값은 이 값이 기본 구조 특성의 보전을 보장하기 때문에 50%로 설정
- 최소 히트 길이가 100으로 설정
- 최대 간격은 20으로 설정
기본적으로 hitk는 해당 위치의 아미노산이 입력 시퀀스의 아미노산과 다른 경우 거부된다. 그런 다음 대체 위치가 유지된 모든 히트의 해당 위치에 대응된다. 히트는 query 단백질과의 서열 정렬의 서열 동일성 또는 E- 값에 따라 분류된다.
Contacts #
Residue의 특정 공간 접촉의 존재는 단백질 기능에 대한 그의 역할을 나타낼 수 있다. 출력에 표시되는 모든 contacts에 권장되는 기본 임계 값은 6Å이다. 그러나 의사 결정 규칙에는 3Å의 값이 사용된다. 두 원자 세트 사이의 접촉을 평가하기 위해 PolyPhen-2는 두 세트의 원자 사이에서 가능한 한 최소 거리를 찾는다. 기본적으로 알려진 구조로 검색된 모든 hits에 대한 contacts가 계산된다. 이것은 여러 PDB 항목이 하나의 단백질에 해당하지만 다른 거대 분자 및 리간드와 복합체에 대한 다른 정보를 전달하는 경우에 필수적이다.
PolyPhen-2는 가변 아미노산 잔기에 대한 3가지 유형의 접촉을 확인한다.
-
Contacts with heteroatoms: 물을 제외한 모든 헤테로 원자 및 단백질의 생물학적 기능보다는 구조 결정 절차와 관련이 있다고 여겨지는 "비생물학적" 결정학적 리간드로 정의된 리간드와의 접촉
-
Interchain contacts: 단백질 분자의 subunits 간의 상호 작용. 기술적으로 PDB 파일에 있는 다른 폴리펩타이드 사슬의 잔기가 있는 다형성 잔기의 접촉으로 정의
-
Contacts with functional sites: PolyPhen-2가 분석한 세 번째 유형의 접촉은 단백질 기능 잔기 (BINDING, ACT_SITE, LIPID 및 METAL)에 대한 중요성이 있는 접촉으로 나타남. BINDING, ACT_SITE, LIPID 및 METAL은 시퀀스 주석에서 파생
Prediction #
PolyPhen-2는 기계 학습을 사용하여 훈련된 Naive Bayes 분류에 의해 개별 기능으로부터 대립 유전자 대체의 기능적 중요성을 예측한다. PolyPhen-2 예측 모델을 훈련하고 테스트하기 위해 두 쌍의 데이터 세트가 사용되었다. 첫 번째 쌍인 HumDiv는 손상되지 않을 것으로 추정되는 인간 단백질과 밀접한 관련이 있는 포유류 동족체 간의 차이점과 함께 UniProtKB 데이터베이스에 있는 인간 멘델의 질병을 일으키는 분자 기능에 대한 알려진 효과를 가진 모든 손상 대립 유전자로부터 수집되었다. 두 번째 쌍인 HumVar는 UniProtKB의 모든 인간 질병 유발 돌연변이와 병에 주석이 포함되지 않은 일반적인 인간 nsSNP (MAF> 1%)로 구성되었으며 손상되지 않은 것으로 취급되었다.
사용자는 HumDiv 및 HumVar에서 훈련된 PolyPhen-2 모델 중에서 선택할 수 있다. 멘델리안 질병의 진단은 풍부한 가벼운 대립 유전자를 포함하여 남아있는 모든 인간 변이의 과감한 효과를 가진 돌연변이를 구별할 것을 요구한다. 따라서 HumVar에서 훈련된 모델을 이 작업에 사용해야 한다. 대조적으로 HumDiv 훈련 모델은 복잡한 표현형에 잠재적으로 관여하는 희귀한 대립 유전자, 게놈 차원의 연관 연구로 확인된 영역의 조밀한 지도 작성 및 서열 데이터에서 자연 선택의 분석을 위해 사용되어야 하며, 대수롭지 않은 해로운 대립 유전자가 있어야만 손상된 것으로 취급된다.
돌연변이의 경우, PolyPhen-2는 Naive Bayes 사후 확률을 계산하여 이 돌연변이가 손상되고 위양성 비율 (FPR, 돌연변이가 실제로 손상이 아닌 경우 손상으로 분류될 확률) 및 실제 양성률 ( TPR, 돌연변이가 실제로 손상되면 손상된 것으로 분류되는 기회)의 추정치를 보고한다. 돌연변이는 각 모델 (예 : HumDiv 및 HumVar)에 대해 개별적으로 최적화된 가양성 (false positive rate) (FPR) 문턱 값 쌍에 따라 양성, 손상 가능성 또는 손상 가능성이 있는 것으로 질적으로 평가된다.
PolyPhen-2의 현재 버전 2.2는 HumDiv 모델의 경우 5% / 10% FPR을 사용하고 HumVar 모델의 경우 10% / 20% FPR을 사용하여, 이 세 가지 분류의 임계 값으로 사용한다. 첫 번째 (낮은) FPR 값 이하의 추정된 위양 양성율과 관련된 사후 확률 점수가 있는 돌연변이는 아마도 손상을 입힐 것으로 예측된다(보다 확신 있는 예측). 두 번째(높은) FPR 값 이하의 위양 양성율과 관련된 사후 확률을 가진 돌연변이는 아마도 손상을 입을 가능성이 있다(덜 확신 있는 예측). 두 번째 (높은) FPR 값보다 높은 추정 된 위양성 비율을 가진 돌연변이는 양성으로 분류된다.
데이터 부족으로 예측이 불가능한 경우 결과가 알려지지 않은 것으로 보고된다.