Skip to content

NEXUS #
Find similar titles

Structured data

Category
Analysis

개요 #

NEXUS는 bioinformatics에 이용되는 file format 중 하나로, DNA sequence를 포함한 다양한 생물학적 정보를 담을 수 있다.

NEXUS는 여러 operational taxonomic unit (OTU)간의 생물정보학적 특징을 비교할 수 있어, 주로 이러한 특징들을 비교하는 systematic study에 널리 활용된다. NEXUS는 PAUP*, MrBayes, IQTree, SplitsTree와 같은 phylogeny 분석 software뿐 아니라 genetic sequence analysis tool을 포함한 다양한 bioinformatics tool들에서도 이용된다.

NEXUS는 nucleotide나 protein sequence 뿐만 아니라 임의로 정의된 character 간의 비교 분석도 진행할 수 있기 때문에, 다양한 생물학적 정보를 분석할 수 있다는 장점이 있다.

NEXUS file은 '.nexus', '.nex', '.nxs'를 확장자로 가질 수 있다.

NEXUS 파일 형식 #

기본 형식 #

NEXUS file은 다음과 같은 기본 형식을 가진다.

    #NEXUS
    BEGIN [ Block name ];
        [ Command ] [ Argument 1 ] [ Argument 2 ] [ … ];
        [ Command ] [ Argument 1 ] [ Argument 2 ] [ … ];
    END;
    BEGIN [ Block name ];
        [ Command ] [ Argument 1 ] [ Argument 2 ] [ … ];
        [ Command ] [ Argument 1 ] [ Argument 2 ] [ … ];
    END;
    …

도입부 #

NEXUS file의 첫 줄은 항상 NEXUS file format임을 알리는 ‘#NEXUS’로 시작한다.

Block #

NEXUS file을 구성하는 기본 단위로, 생물정보 분석에 필요한 정보를 담고 있다. 모든 NEXUS에서 기본적으로 통용되는 block으로는 TAXA, CHARACTERS, UNALIGNED, DISTANCES, SETS, ASSUMPTIONS, CODONS, TREES, NOTES가 있으며, 프로그램에 따라 추가적인 block을 인식해 더 많은 정보를 불러올 수 있다.

Block의 종류 #

  • TAXA: OTU들의 taxonomic information을 담을 수 있다.
  • CHARACTERS: 분석에 이용될 각 OTU들이 가지고 있는 생물정보학적 정보를 담을 수 있다.
  • UNALIGNED: Align되지 않은 생물정보학적 정보를 담을 수 있다.
  • SETS: 다른 block 내의 다양한 객체들을 grouping하여 정의할 수 있다.
  • ASSUMPTION: 생물정보학적 정보가 가지는 통계모델 등의 가정을 담을 수 있다.
  • CODONS: 생물정보학적 정보가 nucleotide 혹은 protein sequence일 경우 codon 정보를 담을 수 있다.
  • TREES: OTU들간의 phylogenetic tree 정보를 담을 수 있다.

Command #

각 block에서 제시할 수 있는 다양한 정보는 command를 통해 세분류하고, command 뒤로 필요한 정보가 제시된다.

대표적인 command의 종류 #

  • DIMENSIONS: 각 block이 담고 있는 정보의 수를 제시한다.
  • TAXLABELS: 각 정보의 OTU label을 제시한다.
  • CHARLABELS: 각 정보 내의 character에 대해 label을 제시한다.
  • STATELABELS: 정보의 character가 임의로 정의된 경우, 각 문자가 의미하는 바에 대해 label을 제시한다.
  • FORMAT: 각 정보가 어떤 구조로 되어있는 지에 대해 제시한다. 대표적인 예로, 정보의 유형(DNA, RNA, protein, 임의 정보 등)을 제시하거나, 각 문자 symbol이 gap이나 missing 등을 규정하는 경우 이에 대한 정보를 제시한다.
  • MATRIX: 정보를 담고 있는 부분이다. OTU의 taxon name을 맨 앞에 가지며, 그 뒤로는 생물정보에 대한 character들이 나열된다.

NEXUS 형식 예시 #

    #NEXUS
    BEGIN TAXA;
        DIMENSIONS NTAX=4;
        TAXLABELS fish frog snake mouse;
    END;
    BEGIN CHARACTERS;
        DIMENSIONS NCHAR=20;
        FORMAT DATATYPE=DNA;
        MATRIX
            fish  ACATA GAGGG TACCT CTAAG
            frog  ACTTA GAGGC TACCT CTACG
            snake ACTCA CTGGG TACCT TTGCG
            mouse ACTCA GACGG TACCT TTGCG;
    END;
    BEGIN TREES;
        TREE best=(fish, (frog, (snake, mouse)));
    END;

참고 문헌 #

  1. Maddison, D.R., Swofford, D.L. and Maddison, W.P., 1997. NEXUS: an extensible file format for systematic information. Systematic biology, 46(4), pp.590-621.
0.0.1_20140628_0