NEXUS
#
Find similar titles
- 최초 작성자
- 최근 업데이트
Structured data
- Category
- Analysis
개요 #
NEXUS는 bioinformatics에 이용되는 file format 중 하나로, DNA sequence를 포함한 다양한 생물학적 정보를 담을 수 있다.
NEXUS는 여러 operational taxonomic unit (OTU)간의 생물정보학적 특징을 비교할 수 있어, 주로 이러한 특징들을 비교하는 systematic study에 널리 활용된다. NEXUS는 PAUP*, MrBayes, IQTree, SplitsTree와 같은 phylogeny 분석 software뿐 아니라 genetic sequence analysis tool을 포함한 다양한 bioinformatics tool들에서도 이용된다.
NEXUS는 nucleotide나 protein sequence 뿐만 아니라 임의로 정의된 character 간의 비교 분석도 진행할 수 있기 때문에, 다양한 생물학적 정보를 분석할 수 있다는 장점이 있다.
NEXUS file은 '.nexus
', '.nex
', '.nxs
'를 확장자로 가질 수 있다.
NEXUS 파일 형식 #
기본 형식 #
NEXUS file은 다음과 같은 기본 형식을 가진다.
#NEXUS
BEGIN [ Block name ];
[ Command ] [ Argument 1 ] [ Argument 2 ] [ … ];
[ Command ] [ Argument 1 ] [ Argument 2 ] [ … ];
END;
BEGIN [ Block name ];
[ Command ] [ Argument 1 ] [ Argument 2 ] [ … ];
[ Command ] [ Argument 1 ] [ Argument 2 ] [ … ];
END;
…
도입부 #
NEXUS file의 첫 줄은 항상 NEXUS file format임을 알리는 ‘#NEXUS
’로 시작한다.
Block #
NEXUS file을 구성하는 기본 단위로, 생물정보 분석에 필요한 정보를 담고 있다. 모든 NEXUS에서 기본적으로 통용되는 block으로는 TAXA
, CHARACTERS
, UNALIGNED
, DISTANCES
, SETS
, ASSUMPTIONS
, CODONS
, TREES
, NOTES
가 있으며, 프로그램에 따라 추가적인 block을 인식해 더 많은 정보를 불러올 수 있다.
Block의 종류 #
TAXA
: OTU들의 taxonomic information을 담을 수 있다.CHARACTERS
: 분석에 이용될 각 OTU들이 가지고 있는 생물정보학적 정보를 담을 수 있다.UNALIGNED
: Align되지 않은 생물정보학적 정보를 담을 수 있다.SETS
: 다른 block 내의 다양한 객체들을 grouping하여 정의할 수 있다.ASSUMPTION
: 생물정보학적 정보가 가지는 통계모델 등의 가정을 담을 수 있다.CODONS
: 생물정보학적 정보가 nucleotide 혹은 protein sequence일 경우 codon 정보를 담을 수 있다.TREES
: OTU들간의 phylogenetic tree 정보를 담을 수 있다.
Command #
각 block에서 제시할 수 있는 다양한 정보는 command를 통해 세분류하고, command 뒤로 필요한 정보가 제시된다.
대표적인 command의 종류 #
DIMENSIONS
: 각 block이 담고 있는 정보의 수를 제시한다.TAXLABELS
: 각 정보의 OTU label을 제시한다.CHARLABELS
: 각 정보 내의 character에 대해 label을 제시한다.STATELABELS
: 정보의 character가 임의로 정의된 경우, 각 문자가 의미하는 바에 대해 label을 제시한다.-
FORMAT
: 각 정보가 어떤 구조로 되어있는 지에 대해 제시한다. 대표적인 예로, 정보의 유형(DNA, RNA, protein, 임의 정보 등)을 제시하거나, 각 문자 symbol이 gap이나 missing 등을 규정하는 경우 이에 대한 정보를 제시한다.FORMAT
command는 다음과 같은 대표적인 subcommand를 통해 중요한 정보를 담을 수 있다.DATATYPE
FORMAT
command의 가장 우선되는 subcommand이다.Standard
,DNA
,RNA
,Nucleotide
,Protein
,Continuous
중 data character의 유형을 정의한다.
다음과 같은 방식으로 표현된다:DATATYPE=DNA
.RESPECTCASE
대문자 character와 소문자 character를 구분하게 한다.MISSING
Missing data를 정의할 symbol을 정의한다.
다음과 같은 특수문자는 사용될 수 없다: ( ) [ ] { } / \ , ; : = * ‘ “ ` < > ^GAP
Gap data를 정의할 symbol을 정의한다.
다음과 같은 특수문자는 사용될 수 없다: ( ) [ ] { } / \ , ; : = * ‘ “ ` < > ^SYMBOLS
Character state를 나타내는데 사용된 symbol의 종류와 순서를 정의한다.DATATYPE=CONTINUOUS
에는 사용할 수 없다. 주로DATATYPE=STANDARD
에서 사용된다.EQUATE
Character state를 대표하여 사용할 symbol을 정의한다. 예를 들어,EQUATE=”E=(0,1)”
은 "E" 라는 문자가 "0과 1"의 character state를 나타낸다.
다음과 같은 특수문자는 사용될 수 없다: ( ) [ ] { } / \ , ; : = * ‘ “ ` < > ^MATCHCHAR
한 character에 대해 다른 taxon에서 첫 번째 taxon과 같은 state를 가짐을 나타내는 symbol을 정의한다. 본 symbol이 character에 나타날 경우, 첫 번째 taxon의 같은 character에서 나타난 state와 똑같이 취급된다.
다음과 같은 특수문자는 사용될 수 없다: ( ) [ ] { } / \ , ; : = * ‘ “ ` < > ^TRANSPOSE
기존 data matrix와 반대로, data matrix의 행부분이 character, 열부분이 taxon을 정의한다.INTERLEAVE
Data matrix가 여러 부분으로 나누어져 있음을 나타낸다. 이 경우 정해진 수만큼 character가 나온 후, 새로운 data matrix에서 이어서 나타난다.TOKENS
Character state가 하나의 symbol로 표현된 것이 아닌 단어 단위로 표현되어 있음을 나타낸다. 이 경우 띄어쓰기 등의 공백을 통해 각각의 state를 구분한다.DATATYPE=PROTEIN
에서 3-문자 약자로 표현할 때 등에 사용될 수 있다.
-
MATRIX
: 정보를 담고 있는 부분이다. OTU의 taxon name을 맨 앞에 가지며, 그 뒤로는 생물정보에 대한 character들이 나열된다.
NEXUS 형식 예시 #
#NEXUS
BEGIN TAXA;
DIMENSIONS NTAX=4;
TAXLABELS fish frog snake mouse;
END;
BEGIN CHARACTERS;
DIMENSIONS NCHAR=20;
FORMAT DATATYPE=DNA;
MATRIX
fish ACATA GAGGG TACCT CTAAG
frog ACTTA GAGGC TACCT CTACG
snake ACTCA CTGGG TACCT TTGCG
mouse ACTCA GACGG TACCT TTGCG;
END;
BEGIN TREES;
TREE best=(fish, (frog, (snake, mouse)));
END;
참고 문헌 #
- Maddison, D.R., Swofford, D.L. and Maddison, W.P., 1997. NEXUS: an extensible file format for systematic information. Systematic biology, 46(4), pp.590-621.