GFF3
#
Find similar titles
- (rev. 10)
- KyungyunKim
Structured data
- Category
- Analysis
Table of Contents
GFF3 #
Alignment 정보를 GFF3포맷으로 작성하는 방법 #
Reference 서열과 다른 서열간의 alignment('match'라 부름)는 다음과 같은 subclass로 나뉜다.
- cDNA_match
- EST_match
- translated_nucleotide_match
- nucleotide_to_protein_match
- nucleotide_motif
큰 사이즈의 gap에 의해서 토막나는 match들을 HSP (High-Scoring segment Pair)라고 하는데, GFF3에서는 이러한 match들도 표현할 수 있다.
HSP 나타내기 #
다음과 같이 HSP 3개로 이루어진 alignment의 경우에는,
아래와 같이 한 줄로 나타낼 수 있고,
ctg123 . cDNA_match 1050 9000 6.2e-45 + . ID=match00001;Target=cdna0123 12 2964;Gap=M451 D3499 M501 D1499 M2001
score가 다른 경우에는, 여러 줄로 분리해서 나타낼수도 있다.
ctg123 . cDNA_match 1050 1500 5.8e-42 + . ID=match00001;Target=cdna0123 12 462
ctg123 . cDNA_match 5000 5500 8.1e-43 + . ID=match00001;Target=cdna0123 463 963
ctg123 . cDNA_match 7000 9000 1.4e-40 + . ID=match00001;Target=cdna0123 964 2964
각 컬럼은 다음과 같다.
#1 column: query
#2 column: source
#3 column: match type
#4,5 column: q start/end
#6 column: score
#7 column: target direction
#8 column: phase
#9 column: ID=[match_id];Target=[target id] [t_start] [t_end]
Gap 속성 #
한 줄로 표현할때는 gap의 속성을 써주어야 하는데, 예제에 쓰인 gap은 다음을 의미한다.
M451: match 451bp(hsp1)
D3499: skip 3499bp
M501: match 501bp(hsp2)
D1499: skip 1499bp
M2001: match 2001bp
GFF3 validation #
작성한 GFF3파일은 링크 에서 검증할 수 있다.