Skip to content

NEXUS #

Find similar titles

4회 업데이트 됨.

Edit
  • 최초 작성자
    jhjeon
  • 최근 업데이트
    jhjeon

Structured data

Category
Analysis

개요 #

NEXUS는 bioinformatics에 이용되는 file format 중 하나로, DNA sequence를 포함한 다양한 생물학적 정보를 담을 수 있다.

NEXUS는 여러 operational taxonomic unit (OTU)간의 생물정보학적 특징을 비교할 수 있어, 주로 이러한 특징들을 비교하는 systematic study에 널리 활용된다. NEXUS는 PAUP*, MrBayes, IQTree, SplitsTree와 같은 phylogeny 분석 software뿐 아니라 genetic sequence analysis tool을 포함한 다양한 bioinformatics tool들에서도 이용된다.

NEXUS는 nucleotide나 protein sequence 뿐만 아니라 임의로 정의된 character 간의 비교 분석도 진행할 수 있기 때문에, 다양한 생물학적 정보를 분석할 수 있다는 장점이 있다.

NEXUS file은 '.nexus', '.nex', '.nxs'를 확장자로 가질 수 있다.

NEXUS 파일 형식 #

기본 형식 #

NEXUS file은 다음과 같은 기본 형식을 가진다.

    #NEXUS
    BEGIN [ Block name ];
        [ Command ] [ Argument 1 ] [ Argument 2 ] [ … ];
        [ Command ] [ Argument 1 ] [ Argument 2 ] [ … ];
    END;
    BEGIN [ Block name ];
        [ Command ] [ Argument 1 ] [ Argument 2 ] [ … ];
        [ Command ] [ Argument 1 ] [ Argument 2 ] [ … ];
    END;
    …

도입부 #

NEXUS file의 첫 줄은 항상 NEXUS file format임을 알리는 ‘#NEXUS’로 시작한다.

Block #

NEXUS file을 구성하는 기본 단위로, 생물정보 분석에 필요한 정보를 담고 있다. 모든 NEXUS에서 기본적으로 통용되는 block으로는 TAXA, CHARACTERS, UNALIGNED, DISTANCES, SETS, ASSUMPTIONS, CODONS, TREES, NOTES가 있으며, 프로그램에 따라 추가적인 block을 인식해 더 많은 정보를 불러올 수 있다.

Block의 종류 #

  • TAXA : OTU들의 taxonomic information을 담을 수 있다.
  • CHARACTERS : 분석에 이용될 각 OTU들이 가지고 있는 생물정보학적 정보를 담을 수 있다.
  • UNALIGNED : Align되지 않은 생물정보학적 정보를 담을 수 있다.
  • SETS : 다른 block 내의 다양한 객체들을 grouping하여 정의할 수 있다.
  • ASSUMPTION : 생물정보학적 정보가 가지는 통계모델 등의 가정을 담을 수 있다.
  • CODONS : 생물정보학적 정보가 nucleotide 혹은 protein sequence일 경우 codon 정보를 담을 수 있다.
  • TREES : OTU들간의 phylogenetic tree 정보를 담을 수 있다.

Command #

각 block에서 제시할 수 있는 다양한 정보는 command를 통해 세분류하고, command 뒤로 필요한 정보가 제시된다.

대표적인 command의 종류 #

  • DIMENSIONS : 각 block이 담고 있는 정보의 수를 제시한다.
  • TAXLABELS : 각 정보의 OTU label을 제시한다.
  • CHARLABELS : 각 정보 내의 character에 대해 label을 제시한다.
  • STATELABELS : 정보의 character가 임의로 정의된 경우, 각 문자가 의미하는 바에 대해 label을 제시한다.
  • FORMAT : 각 정보가 어떤 구조로 되어있는 지에 대해 제시한다. 대표적인 예로, 정보의 유형(DNA, RNA, protein, 임의 정보 등)을 제시하거나, 각 문자 symbol이 gap이나 missing 등을 규정하는 경우 이에 대한 정보를 제시한다. FORMAT command는 다음과 같은 대표적인 subcommand를 통해 중요한 정보를 담을 수 있다.

    • DATATYPE
      FORMAT command의 가장 우선되는 subcommand이다. Standard, DNA, RNA, Nucleotide, Protein, Continuous 중 data character의 유형을 정의한다.
      다음과 같은 방식으로 표현된다: DATATYPE=DNA.
    • RESPECTCASE
      대문자 character와 소문자 character를 구분하게 한다.
    • MISSING
      Missing data를 정의할 symbol을 정의한다.
      다음과 같은 특수문자는 사용될 수 없다: ( ) [ ] { } / \ , ; : = * ‘ “ ` < > ^
    • GAP
      Gap data를 정의할 symbol을 정의한다.
      다음과 같은 특수문자는 사용될 수 없다: ( ) [ ] { } / \ , ; : = * ‘ “ ` < > ^
    • SYMBOLS
      Character state를 나타내는데 사용된 symbol의 종류와 순서를 정의한다. DATATYPE=CONTINUOUS에는 사용할 수 없다. 주로 DATATYPE=STANDARD에서 사용된다.
    • EQUATE
      Character state를 대표하여 사용할 symbol을 정의한다. 예를 들어, EQUATE=”E=(0,1)”은 "E" 라는 문자가 "0과 1"의 character state를 나타낸다.
      다음과 같은 특수문자는 사용될 수 없다: ( ) [ ] { } / \ , ; : = * ‘ “ ` < > ^
    • MATCHCHAR
      한 character에 대해 다른 taxon에서 첫 번째 taxon과 같은 state를 가짐을 나타내는 symbol을 정의한다. 본 symbol이 character에 나타날 경우, 첫 번째 taxon의 같은 character에서 나타난 state와 똑같이 취급된다.
      다음과 같은 특수문자는 사용될 수 없다: ( ) [ ] { } / \ , ; : = * ‘ “ ` < > ^
    • TRANSPOSE
      기존 data matrix와 반대로, data matrix의 행부분이 character, 열부분이 taxon을 정의한다.
    • INTERLEAVE
      Data matrix가 여러 부분으로 나누어져 있음을 나타낸다. 이 경우 정해진 수만큼 character가 나온 후, 새로운 data matrix에서 이어서 나타난다.
    • TOKENS
      Character state가 하나의 symbol로 표현된 것이 아닌 단어 단위로 표현되어 있음을 나타낸다. 이 경우 띄어쓰기 등의 공백을 통해 각각의 state를 구분한다. DATATYPE=PROTEIN에서 3-문자 약자로 표현할 때 등에 사용될 수 있다.
  • MATRIX : 정보를 담고 있는 부분이다. OTU의 taxon name을 맨 앞에 가지며, 그 뒤로는 생물정보에 대한 character들이 나열된다.

NEXUS 형식 예시 #

    #NEXUS
    BEGIN TAXA;
        DIMENSIONS NTAX=4;
        TAXLABELS fish frog snake mouse;
    END;
    BEGIN CHARACTERS;
        DIMENSIONS NCHAR=20;
        FORMAT DATATYPE=DNA;
        MATRIX
            fish  ACATA GAGGG TACCT CTAAG
            frog  ACTTA GAGGC TACCT CTACG
            snake ACTCA CTGGG TACCT TTGCG
            mouse ACTCA GACGG TACCT TTGCG;
    END;
    BEGIN TREES;
        TREE best=(fish, (frog, (snake, mouse)));
    END;

참고 문헌 #

  1. Maddison, D.R., Swofford, D.L. and Maddison, W.P., 1997. NEXUS: an extensible file format for systematic information. Systematic biology, 46(4), pp.590-621.
0.0.1_20230725_7_v68