Skip to content

Gblocks #
Find similar titles

Introduction #

Gblocks는 ANSI C언어로 개발된 프로그램으로써 DNA 또는 단백질 서열의 alignment 결과에서 퀄리티가 낮은 영역 (ambiguously aligned regions)을 제거하는 데 이용될 수 있다. 대부분 그런 영역들은 gap이나 다양한 변이를 포함하여 잘못된 결과 도출로 이어질 수 있으므로 phylogenetic analysis 분석에 앞서 선행되어야 한다.

Gblocks는 alignment postion에서의 conservation 정도를 nonconserved, conserved 또는 highly conserved로 간주하고 연속된 nonconserved position이 존재하면 그 영역을 ambiguous한 것으로 간주하고 highly conserved 영역이 나올 때까지 제거한다. 그리고 모든 gap 영영과 small block을 제거한다.

Installation #

Mac OS X, Linux와 UNIX 뿐만 아니라 Windows 버전도 제공하고 있다. 현재 최신 버전은 v0.91b (January 2002)이고 리눅스 서버에 설치하는 방법은 다음과 같다.

$ wget -t 0 http://molevol.cmima.csic.es/castresana/Gblocks/Gblocks_Linux_0.91b.tar.Z
$ tar zxvf Gblocks_Linux_0.91b.tar.Z

Usage #

Glocks 프로그램을 실행하고 input file, parameters 셋팅 후 blocks을 얻을 수 있다 (메뉴얼 참고).

******************************************************
                    GBLOCKS 0.91b                     
SELECTION OF CONSERVED BLOCKS FROM MULTIPLE ALIGNMENTS
        FOR THEIR USE IN PHYLOGENETIC ANALYSIS        
******************************************************

o. Open File
b. Block Parameters
s. Saving Options
g. (Get Blocks)
q. Quit


Your Choice:
  • o : 분석하고자 하는 input file을 지정하는 옵션이다. NBRF/PIR과 FASTA format의 alignments 결과를 모두 허용하고 메모리가 허용하는 한 서열의 개수나 길이에는 제한이 없다.
  • b : block parameter 설정을 위한 메뉴로 이동한다 (아래 참고).

Block parameters에는 5가지가 있다.

1. Minimum Number Of Sequences For A Conserved Position: . 9
2. Minimum Number Of Sequences For A Flank Position: ..... 14
3. Maximum Number Of Contiguous Nonconserved Positions: .. 8
4. Minimum Length Of A Block: ............................ 10
5. Allowed Gap Positions: ................................ None

Command line version #

Gblocks은 command line 버전도 제공하며 분석 예시와 각 파라미터의 의미는 다음과 같다 메뉴얼 참고).

$ Gblocks nad3.pir -t=p -e=-gb1 -b4=5 -d=y
PARAMETER NAME MEANING (Default) ALLOWED VALUES
(None) Filename (No default) Alignment or pathnames file
-t= Type Of Sequence (Protein, DNA, Codons) p, d, c
-b1= Minimum Number Of Sequences For A Conserved Position (50% of the number of sequences + 1) Any integer bigger than half the number of sequences and smaller or equal than the total number of sequences
-b2= Minimum Number Of Sequences For A Flank Position (85% of the number of sequences) Any integer equal or bigger than Minimum Number Of Sequences For A Conserved Position
-b3= Maximum Number Of Contiguous Nonconserved Positions (8) Any integer
-b4= Minimum Length Of A Block (10) Any integer equal or bigger than 2
-b5= Allowed Gap Positions (None, With Half, All) n, h, a
-b6= (Only available for protein alignments; only visible in the extended block parameters menu) Use Similarity Matrices (Yes, No) y, n
-b0= (This option does not appear in the menu) Minimum Length Of An Initial Block (Same as Minimum Length Of A Block) Any integer equal or bigger than 2
-s= Selected Blocks (Yes, No) y, n
-p= Results And Parameters File (Yes, Text, Short Text, No) y, t, s, n
-v= (Only visible in the extended saving options) Characters Per Line In Results And Parameters File (60) Any integer bigger than 50
-n= (Only visible in the extended saving options) Nonconserved Blocks (Yes, No) y, n
-u= (Only visible in the extended saving options) Ungapped Alignment (Yes, No) y, n
-k= (Only visible in the extended saving options) Mask File With The Selected Blocks (Yes, No) y, n
-d= (Only visible in the extended saving options) Postscript File With The Selected Blocks (Yes, No) y, n
-a= (Only available with paths files) Concatenated Blocks From Alignments In Batch (Yes, No) y, n
-c= (Only available with paths files) Concatenated Input Alignments In Batch (Yes, No) y, n
-w= (Only available with paths files) Concatenated Ungapped Alignments In Batch (Yes, No) y, n
-e= Generic File Extension (-gb) Any string with 5 or less characters

Tips #

  1. 2017년 4월 게재된 거미 유전체 논문에서는 "Allowed Gap Position" 파라미터만 h로 변경하여 분석하였다 (논문 링크).

  2. 2015년에 게재된 fungi 유전체 분석 논문에서는 "Maximum Number Of Contiguous Nonconserved Positions" 파라미터만  4로 변경하여 분석하였다 (논문 링크).

Reference #

  • Castresana J. Selection of conserved blocks from multiple alignments for their use in phylogenetic analysis. Mol Biol Evol. 2000;17(4):540–52.
0.0.1_20140628_0