Table of Contents
Introduction #
Gblocks는 ANSI C언어로 개발된 프로그램으로써 DNA 또는 단백질 서열의 alignment 결과에서 퀄리티가 낮은 영역 (ambiguously aligned regions)을 제거하는 데 이용될 수 있다. 대부분 그런 영역들은 gap이나 다양한 변이를 포함하여 잘못된 결과 도출로 이어질 수 있으므로 phylogenetic analysis 분석에 앞서 선행되어야 한다.
Gblocks는 alignment postion에서의 conservation 정도를 nonconserved, conserved 또는 highly conserved로 간주하고 연속된 nonconserved position이 존재하면 그 영역을 ambiguous한 것으로 간주하고 highly conserved 영역이 나올 때까지 제거한다. 그리고 모든 gap 영영과 small block을 제거한다.
Installation #
Mac OS X, Linux와 UNIX 뿐만 아니라 Windows 버전도 제공하고 있다. 현재 최신 버전은 v0.91b (January 2002)이고 리눅스 서버에 설치하는 방법은 다음과 같다.
$ wget -t 0 http://molevol.cmima.csic.es/castresana/Gblocks/Gblocks_Linux_0.91b.tar.Z
$ tar zxvf Gblocks_Linux_0.91b.tar.Z
Usage #
Glocks 프로그램을 실행하고 input file, parameters 셋팅 후 blocks을 얻을 수 있다 (메뉴얼 참고).
******************************************************
GBLOCKS 0.91b
SELECTION OF CONSERVED BLOCKS FROM MULTIPLE ALIGNMENTS
FOR THEIR USE IN PHYLOGENETIC ANALYSIS
******************************************************
o. Open File
b. Block Parameters
s. Saving Options
g. (Get Blocks)
q. Quit
Your Choice:
- o : 분석하고자 하는 input file을 지정하는 옵션이다. NBRF/PIR과 FASTA format의 alignments 결과를 모두 허용하고 메모리가 허용하는 한 서열의 개수나 길이에는 제한이 없다.
- b : block parameter 설정을 위한 메뉴로 이동한다 (아래 참고).
Block parameters에는 5가지가 있다.
1. Minimum Number Of Sequences For A Conserved Position: . 9
2. Minimum Number Of Sequences For A Flank Position: ..... 14
3. Maximum Number Of Contiguous Nonconserved Positions: .. 8
4. Minimum Length Of A Block: ............................ 10
5. Allowed Gap Positions: ................................ None
Command line version #
Gblocks은 command line 버전도 제공하며 분석 예시와 각 파라미터의 의미는 다음과 같다 메뉴얼 참고).
$ Gblocks nad3.pir -t=p -e=-gb1 -b4=5 -d=y
PARAMETER NAME | MEANING (Default) | ALLOWED VALUES |
---|---|---|
(None) | Filename (No default) | Alignment or pathnames file |
-t= | Type Of Sequence (Protein, DNA, Codons) | p, d, c |
-b1= | Minimum Number Of Sequences For A Conserved Position (50% of the number of sequences + 1) | Any integer bigger than half the number of sequences and smaller or equal than the total number of sequences |
-b2= | Minimum Number Of Sequences For A Flank Position (85% of the number of sequences) | Any integer equal or bigger than Minimum Number Of Sequences For A Conserved Position |
-b3= | Maximum Number Of Contiguous Nonconserved Positions (8) | Any integer |
-b4= | Minimum Length Of A Block (10) | Any integer equal or bigger than 2 |
-b5= | Allowed Gap Positions (None, With Half, All) | n, h, a |
-b6= (Only available for protein alignments; only visible in the extended block parameters menu) | Use Similarity Matrices (Yes, No) | y, n |
-b0= (This option does not appear in the menu) | Minimum Length Of An Initial Block (Same as Minimum Length Of A Block) | Any integer equal or bigger than 2 |
-s= | Selected Blocks (Yes, No) | y, n |
-p= | Results And Parameters File (Yes, Text, Short Text, No) | y, t, s, n |
-v= (Only visible in the extended saving options) | Characters Per Line In Results And Parameters File (60) | Any integer bigger than 50 |
-n= (Only visible in the extended saving options) | Nonconserved Blocks (Yes, No) | y, n |
-u= (Only visible in the extended saving options) | Ungapped Alignment (Yes, No) | y, n |
-k= (Only visible in the extended saving options) | Mask File With The Selected Blocks (Yes, No) | y, n |
-d= (Only visible in the extended saving options) | Postscript File With The Selected Blocks (Yes, No) | y, n |
-a= (Only available with paths files) | Concatenated Blocks From Alignments In Batch (Yes, No) | y, n |
-c= (Only available with paths files) | Concatenated Input Alignments In Batch (Yes, No) | y, n |
-w= (Only available with paths files) | Concatenated Ungapped Alignments In Batch (Yes, No) | y, n |
-e= | Generic File Extension (-gb) | Any string with 5 or less characters |
Tips #
-
2017년 4월 게재된 거미 유전체 논문에서는 "Allowed Gap Position" 파라미터만 h로 변경하여 분석하였다 (논문 링크).
-
2015년에 게재된 fungi 유전체 분석 논문에서는 "Maximum Number Of Contiguous Nonconserved Positions" 파라미터만 4로 변경하여 분석하였다 (논문 링크).
Reference #
- Castresana J. Selection of conserved blocks from multiple alignments for their use in phylogenetic analysis. Mol Biol Evol. 2000;17(4):540–52.