Skip to content

GFF3 #
Find similar titles

Structured data

Category
Analysis

GFF3 #

Alignment 정보를 GFF3포맷으로 작성하는 방법 #

Reference 서열과 다른 서열간의 alignment('match'라 부름)는 다음과 같은 subclass로 나뉜다.

  • cDNA_match
  • EST_match
  • translated_nucleotide_match
  • nucleotide_to_protein_match
  • nucleotide_motif

큰 사이즈의 gap에 의해서 토막나는 match들을 HSP (High-Scoring segment Pair)라고 하는데, GFF3에서는 이러한 match들도 표현할 수 있다.

HSP 나타내기 #

다음과 같이 HSP 3개로 이루어진 alignment의 경우에는,
hsp

아래와 같이 한 줄로 나타낼 수 있고,

ctg123 . cDNA_match 1050 9000 6.2e-45 + . ID=match00001;Target=cdna0123 12 2964;Gap=M451 D3499 M501 D1499 M2001

score가 다른 경우에는, 여러 줄로 분리해서 나타낼수도 있다.

ctg123 . cDNA_match 1050 1500 5.8e-42 + . ID=match00001;Target=cdna0123 12 462 
ctg123 . cDNA_match 5000 5500 8.1e-43 + . ID=match00001;Target=cdna0123 463 963 
ctg123 . cDNA_match 7000 9000 1.4e-40 + . ID=match00001;Target=cdna0123 964 2964

각 컬럼은 다음과 같다.

#1 column: query
#2 column: source
#3 column: match type
#4,5 column: q start/end
#6 column: score
#7 column: target direction
#8 column: phase 
#9 column: ID=[match_id];Target=[target id] [t_start] [t_end]

Gap 속성 #

한 줄로 표현할때는 gap의 속성을 써주어야 하는데, 예제에 쓰인 gap은 다음을 의미한다.

M451: match 451bp(hsp1)
D3499: skip 3499bp
M501: match 501bp(hsp2)
D1499: skip 1499bp
M2001: match 2001bp

GFF3 validation #

작성한 GFF3파일은 링크 에서 검증할 수 있다.


참고사이트 #

Incoming Links #

Related Bioinformaticses #

0.0.1_20210630_7_v33