Skip to content

Interpretation DB - SIFT #
Find similar titles

Structured data

Category
Database

개요 #

게놈 데이터베이스(GDB)는 유전체에 존재하는 유전변이 정보들을 수집하고, 데이터베이스화함으로써, 유전체 맞춤의학 연구를 위한 기반을 다져왔다. 이와 관련하여 Interpretation DB 중, Poyphen, SIFT, InterVar에 대해서 알아보자.

SIFT #

SIFT는 아미노산 치환이 단백질 기능에 영향을 미칠지 예측한다. SIFT 예측은 PSI-BLAST를 통해 수집된 밀접한 관련 서열로부터 유도된 서열 정렬에서 아미노산 잔기의 보존 정도에 기초한다. SIFT는 자연 발생 nonsynonymous polymorphisms이나 실험실 유도 missense mutation에 적용될 수 있다.

Human Genome DB Tool Description
SIFT/PROVEAN Human SNPs Get SIFT and PROVEAN predictions for SNPs and indels (Ensembl 66) (Sample format)
SIFT Human SNPs Get SIFT predictions for nonsynonymous SNPs (Ensembl 63) (Sample format)
Other human genome tools: Restrict to Coding Variants (Sample format) / Classify Human indels (Sample format)
SIFT Human Protein DB Tool Description (Ensembl 63)
SIFT Human Protein Get SIFT predictions for nonsynonymous AA substitutions (Ensembl ENSP ID)
SIFT dbSNP DB Tool Description (dbSNP Build 132)
SIFT dbSNP rs IDs Get SIFT predictions for dbSNP SNPs including non-human species (NCBI rs ID)
SIFT dbSNP Protein Get SIFT predictions for dbSNP proteins including non-human species (RefSeq ID or GI number)
SIFT Single Protein Tools Tool Description
SIFT BLink Run SIFT analysis on single protein using precomputed BLAST from NCBI BLink (RefSeq ID or GI number)
SIFT Sequence Run SIFT analysis on single protein through a PSI-BLAST search (fasta)
SIFT Related Sequences Run SIFT analysis on protein query and a group of related sequences (multi-fasta)
SIFT Aligned Sequences Run SIFT analysis on protein query already in multi-sequence alignments (MSA)
  • PROVEAN (Protein Variation Effect Analyzer)은 아미노산 치환 또는 indel이 단백질의 생물학적 기능에 미치는 영향을 예측하는 소프트웨어 도구

  • PROVEAN은 기능적으로 중요한 것으로 예측되는 비 동의어 또는 변형을 식별하기 위해 서열 변형을 필터링하는 데 유용

  • PROVEAN의 성능은 SIFT나 PolyPhen-2와 같은 보편적인 도구와 비슷

  • 쌍 단위 서열 정렬 점수를 얻기 위한 빠른 계산 방법은 인간과 마우스의 모든 단백질 서열의 모든 아미노산 위치에서 20번의 단일 AA 치환과 단일 AA 삭제에 대한 사전 계산된 PROVEAN 예측을 생성할 수 있게 함.

What does SIFT do? #

SIFT는 내성이 없는 아미노산 치환을 허용하지 않고 단백질의 아미노산 치환이 표현형 효과를 가지는지 아닌지를 예측하는 서열 상동성 기반 도구이다. SIFT는 단백질 진화가 단백질 기능과 상호 관련된다는 전제에 기반을 두고 있다. 중요하지 않은 위치는 배열에서 다양하게 보일 반면, 기능에 중요한 위치는 단백질 군의 정렬에서 보존되어야 한다.

What can SIFT do for me? #

돌연변이를 일으키고 싶은 단백질이 있다면 SIFT에 서열을 입력한다. 많은 치환을 허용하지 않는 영역은 점수 출력 파일에서 빨간색으로 강조 표시되며, 이 영역을 대상으로 변이를 지정할 수 있다. 단일 아미노산이 치환된 돌연변이 단백질을 가지고 있다면, SIFT는 기능 분석을 수행하기 전에 어떤 돌연변이가 표현형 효과가 있을지 예측할 것이다.

How does SIFT work? #

SIFT는 query 시퀀스를 취하고 query 시퀀스의 모든 위치에 대해 허용 및 유해 치환을 예측하기 위해 여러 정렬 정보를 사용한다. SIFT는 (1) 유사한 서열을 검색하고, (2) querr 서열과 유사한 기능을 공유할 수 있는 밀접한 관련 서열을 선택하고, (3) 선택된 서열의 정렬을 얻으며, (4) 다음과 같은 표준화된 확률을 계산한다. 모든 정렬에서 가능한 대체, 정규화된 확률이 0.05 미만인 위치는 해로운 것으로 예측되며, 0.05보다 크거나 같은 위치는 허용될 것으로 예측된다.

Input for SIFT #

단백질 서열 (느림) 또는 관련 서열 (빠른)과 관련된 query 서열 또는 관련 서열과 정렬된 query 서열 (더 빠른)을 입력할 수 있다.

Submitting a NCBI GI #

SIFT 예측을 얻기 위해 NCBI GI #id를 입력할 수 있다. 예측은 사전 계산 BLAST 검색을 기반으로 하며 1분 이내에 반환된다. 이것이 선호하는 방법의 하나이다. 특정 단백질 서열에 대한 NCBI GI 번호를 찾으려면 NCBI 단백질 데이터베이스로 이동하여 유전자 이름을 입력한다. 너무 많은 결과가 나오면 유기체를 지정하여 범위를 좁힐 수 있다. 예를 들어, 사람 MLH1 유전자를 찾으려면 NCBI 텍스트 상자에 "MLH1"[유전자]와 "호모 사피엔스"[조직]를 입력하면 인간에 제한된 유전자 목록이 반환된다.

Submitting a sequence #

FASTA 형식으로 단백질 서열을 제출할 수 있다. 전체 SIFT 절차가 실행되고 결과가 사용자에게 반송된다. 다만 이 방법은 느리다. 단백질에 대한 추가 정보가 있으면 결과를 훨씬 빨리 얻을 수 있다.

Submitting a group of related sequences #

Query 단백질과 관련된 단백질을 알고 있다면 시퀀스 및 관련 시퀀스를 제출하여 결과를 훨씬 빠르게 얻을 수 있다. SIFT 절차의 단계 (1) 과 (2) 는 건너뛴다. 관심 있는 단백질을 파일의 첫 번째 시퀀스로 FASTA 형식으로 제출하면 된다.

Submitting a multiple alignment #

관심 있는 단백질이 포함된 다중 정렬이 있는 경우 CLUSTAL, MSF 또는 FASTA 형식으로 정렬을 제출할 수 있다. 당신의 단백질은 첫 번째 정렬에 있어야 한다. 정렬의 길이는 query 단백질에 해당해야 하며, query 단백질 시퀀스에는 간격이 없어야 한다. SIFT 절차에서 (1) 단계부터 (3) 단계까지 건너뛰므로 SUPER-DUPER FAST 결과를 얻을 수 있다.

Submitting Substitutions #

SIFT는 사용자의 대체물이 점수에 따라 관용 또는 견딜 수 있는지에 대한 예측을 반환한다. 치환을 위한 형식은 X # Y를 가지며, 여기서 X는 원래 아미노산이고, #은 치환 위치이며, Y는 새로운 아미노산이다. 한 줄에 한 번씩 대체 할 수 있다.

예:  
M1Y
K3S
T4P

SIFT Output #

  • SIFT Predictions for Substitutions
Output Description
SIFT Score Ranges from 0 to 1. The amino acid substitution is predicted damaging is the score is <= 0.05, and tolerated if the score is > 0.05.
Median Info Ranges from 0 to 4.32, ideally the number would be between 2.75 and 3.5. This is used to measure the diversity of the sequences used for prediction. A warning will occur if this is greater than 3.25 because this indicates that the prediction was based on closely related sequences.
Seqs at Position This is the number of sequences that have an amino acid at the position of prediction. SIFT automatically chooses the sequence for you, but if the substitution is located at the beginning or end of the protein, there may be only a few sequences represented at that position, and this column indicates this.
  • Genome Tool Output 다음은 genomic variatns를 제출한 후, 반환되는 출력 예입니다.
Coordinates Codons Transcript ID Protein ID Substitution Region dbSNP ID SNP Type Prediction Score Median Info # Seqs at position User Comment
1,100624830,1,T/A ATA-tTA ENST00000342895 ENSP00000344470 I121L EXON CDS rs34920283:A Nonsynonymous TOLERATED 0.59 3.06 28
22,30163533,1,A/C GAG-GcG ENST00000330029 ENSP00000332887 E49A EXON CDS rs11554363:C Nonsynonymous DAMAGING 0.03 3.04 50
X,10085674,1,T/C GAT-GAc ENST00000380861 ENSP00000370242 D525D EXON CDS rs6530368:C Synonymous N/A N/A N/A N/A
21,19638426,1,T/G TTG-gTG ENST00000338326 ENSP00000339975 L223V EXON CDS novel Nonsynonymous DAMAGING *Warning! Low confidence. 0 4.32 2
2,230633386,1,G/A CAG-tAG ENST00000283943 ENSP00000283943 Q1910* EXON CDS rs1803846:A Nonsynonymous N/A N/A N/A N/A
2,230312220,1,G/A CCC-CtC ENST00000341772 ENSP00000345229 P433L EXON CDS rs17853365:A Nonsynonymous TOLERATED 0.11 3.02 160

첫 번째 column은 제출된 variant를 나타낸다. 대립 유전자가 - 가닥에 대해 제출되면 대립 유전자가 + 가닥으로 자동 변환된다. 변형을 올바르게 제출하지 않으면 기본적으로 synonymous로 변경된다. 두 번째 열은 변경된 코돈을 나타내며, 염기는 + mRNA orientation과 관련이 있다. dbSNP이 동일한 위치에서 겹치는 변형이 있으면 rs ID가 표시된다. 그러나 대립 유전자는 같지 않을 수도 있다.

  • Gene Annotation Error : 우리는 Ensembl 유전자 주석이 예상되는 Ensembl 단백질을 코딩하는지 확인한다. 예를 들어, Ensembl 유전자가 NCBI 참조 게놈의 3-56 위치에있는 경우, NCBI reference genome에서 해당 DNA 염기를 추출하여 번역한 다음 해당 Ensembl 단백질 시퀀스와 일치하는지 확인한다. Ensemble 유전자 어노테이션이 예상되는 단백질 서열에 대해서는 코딩 변이에 주석을 달지 않는다. NCBI36 단백질의 16%가 이 오류를 가지고 있었고, NCBI37의 7%가 이 오류를 가지고 있었다. 따라서, 이 오류가 발생하는 경우 NCBI37 coordinates (NCBI36을 NCBI37로 변환한 후)로 제출하는 것이 좋다. 이 오류가 계속 발생하면 직접 주석을 다는 것을 추천한다.

Reference #

0.0.1_20210630_7_v33