PHY
#
Find similar titles
- 최초 작성자
- 최근 업데이트
Structured data
- Category
- Analysis
PHY는 계통수를 그리기 위한 프로그램 패키지 중 하나인 PHYLIP에서 입력 받는 다중서열정렬(Multiple Alignment) 포맷이다. 기본적으로 해당 포맷은 원래 딱히 정해진 이름 없이 “.phylip” 확장자를 사용하여 프로그램 패키지 이름과 마찬가지로 PHYLIP 파일 포맷이라고 불리나, 프로그램과 이름이 같아 혼동을 줄 수 있으므로 대체 확장자인 “.phy”를 따서 PHY 포맷이라고도 불린다.
해당 포맷은 가장 흔히 사용되는 FASTA 파일 포맷과 유사하게, 상당히 간단하고 쉬운 형식을 사용하므로 기본 프로그램인 PHYLIP 외에도 여러 계통분석 프로그램에서 매우 흔히 사용되거나 호환된다. PHY 파일 포맷은 다음과 같은 형식으로 이루어진다.
- 첫 번째 줄에는 multiple alignment의 규모, 즉 정렬된 서열의 수와 길이를 표기한다.
- 그 다음 줄부터는 alignment 정보, 즉 각 서열의 서열 ID와 염기서열을 표시한다.
- 기본적으로 서열 정보 부분의 시작 10글자는 서열 ID를 의미한다. 하지만 ID부분의 끝부분에는 반드시 염기서열과 구분될 수 있는 공백이 하나 이상 있어야 한다. 즉 9자 이내로 각 서열의 ID가 정의되지 않으면 해당 서열이 인식되지 않는다. 따라서 ID나 이름이 긴 경우 쉽게 구분할 수 있는 ID로 전환하는 것이 필요하다.
- 일부 프로그램에서는 공백을 이용해 9자 이상의 ID를 서열과 구분할 수 있으나, 기본 형식에는 어긋나므로 다른 프로그램과 호환되지 않을 수 있다.
PHY 파일 포맷은 interleaved 포맷(한 줄 당 염기서열 표시 글자수에 제한을 두어, 하나의 염기 서열을 여러 줄로 표시)과 sequential 포맷(한 염기서열은 무조건 한 줄로 표시)을 모두 지원하며, 각각의 예시는 아래와 같다.
-
Interleaved 포맷
5 42 Turkey AAGCTNGGGC ATTTCAGGGT Salmo AAGCCTTGGC AGTGCAGGGT H.Sapiens ACCGGTTGGC CGTTCAGGGT Chimp AAACCCTTGC CGTTACGCTT Gorilla AAACCCTTGC CGGTACGCTT GAGCCCGGGC AATACAGGGT AT GAGCCGTGGC CGGGCACGGT AT ACAGGTTGGC CGTTCAGGGT AA AAACCGAGGC CGGGACACTC AT AAACCATTGC CGGTACGCTT AA
-
Sequential 포맷
5 42 Turkey AAGCTNGGGC ATTTCAGGGT GAGCCCGGGC AATACAGGGT AT Salmo AAGCCTTGGC AGTGCAGGGT GAGCCGTGGC CGGGCACGGT AT H.Sapiens ACCGGTTGGC CGTTCAGGGT ACAGGTTGGC CGTTCAGGGT AA Chimp AAACCCTTGC CGTTACGCTT AAACCGAGGC CGGGACACTC AT Gorilla AAACCCTTGC CGGTACGCTT AAACCATTGC CGGTACGCTT AA
참고문헌 #
Incoming Links #
Related Bioinformaticses (Bioinformatics 0) #
Suggested Pages #
- 0.400 Hot topics
- 0.025 Maximum Parsimony
- 0.025 CLC Main Workbench
- 0.025 PAUP
- 0.025 AI
- 0.025 FigTree
- 0.025 Neighbor Joining Agorithm
- 0.025 CLC Genomics Workbench
- 0.025 Distance Matrix Method
- 0.013 Needleman-Wunsch 알고리즘
- More suggestions...