Skip to content

PHY #
Find similar titles

Structured data

Category
Analysis

PHY는 계통수를 그리기 위한 프로그램 패키지 중 하나인 PHYLIP에서 입력 받는 다중서열정렬(Multiple Alignment) 포맷이다. 기본적으로 해당 포맷은 원래 딱히 정해진 이름 없이 “.phylip” 확장자를 사용하여 프로그램 패키지 이름과 마찬가지로 PHYLIP 파일 포맷이라고 불리나, 프로그램과 이름이 같아 혼동을 줄 수 있으므로 대체 확장자인 “.phy”를 따서 PHY 포맷이라고도 불린다.

해당 포맷은 가장 흔히 사용되는 FASTA 파일 포맷과 유사하게, 상당히 간단하고 쉬운 형식을 사용하므로 기본 프로그램인 PHYLIP 외에도 여러 계통분석 프로그램에서 매우 흔히 사용되거나 호환된다. PHY 파일 포맷은 다음과 같은 형식으로 이루어진다.

  • 첫 번째 줄에는 multiple alignment의 규모, 즉 정렬된 서열의 수와 길이를 표기한다.
  • 그 다음 줄부터는 alignment 정보, 즉 각 서열의 서열 ID와 염기서열을 표시한다.
  • 기본적으로 서열 정보 부분의 시작 10글자는 서열 ID를 의미한다. 하지만 ID부분의 끝부분에는 반드시 염기서열과 구분될 수 있는 공백이 하나 이상 있어야 한다. 즉 9자 이내로 각 서열의 ID가 정의되지 않으면 해당 서열이 인식되지 않는다. 따라서 ID나 이름이 긴 경우 쉽게 구분할 수 있는 ID로 전환하는 것이 필요하다.
  • 일부 프로그램에서는 공백을 이용해 9자 이상의 ID를 서열과 구분할 수 있으나, 기본 형식에는 어긋나므로 다른 프로그램과 호환되지 않을 수 있다.

PHY 파일 포맷은 interleaved 포맷(한 줄 당 염기서열 표시 글자수에 제한을 두어, 하나의 염기 서열을 여러 줄로 표시)과 sequential 포맷(한 염기서열은 무조건 한 줄로 표시)을 모두 지원하며, 각각의 예시는 아래와 같다.

  1. Interleaved 포맷

        5    42
    Turkey    AAGCTNGGGC ATTTCAGGGT 
    Salmo     AAGCCTTGGC AGTGCAGGGT 
    H.Sapiens ACCGGTTGGC CGTTCAGGGT 
    Chimp     AAACCCTTGC CGTTACGCTT 
    Gorilla   AAACCCTTGC CGGTACGCTT
    
    GAGCCCGGGC AATACAGGGT AT
    GAGCCGTGGC CGGGCACGGT AT
    ACAGGTTGGC CGTTCAGGGT AA
    AAACCGAGGC CGGGACACTC AT
    AAACCATTGC CGGTACGCTT AA
    
  2. Sequential 포맷

        5    42
    Turkey    AAGCTNGGGC ATTTCAGGGT GAGCCCGGGC AATACAGGGT AT
    Salmo     AAGCCTTGGC AGTGCAGGGT GAGCCGTGGC CGGGCACGGT AT
    H.Sapiens ACCGGTTGGC CGTTCAGGGT ACAGGTTGGC CGTTCAGGGT AA
    Chimp     AAACCCTTGC CGTTACGCTT AAACCGAGGC CGGGACACTC AT
    Gorilla   AAACCCTTGC CGGTACGCTT AAACCATTGC CGGTACGCTT AA
    

참고문헌 #

  1. http://evolution.genetics.washington.edu/phylip/doc/sequence.html

Incoming Links #

Related Bioinformaticses #

Suggested Pages #

0.0.1_20140628_0