Skip to content

GFF #

Find similar titles

3회 업데이트 됨.

Edit
  • 최초 작성자
    Myunghee Jung
  • 최근 업데이트

Structured data

Category
Analysis

개요 #

GFF(General Feature Format)는 어떤 서열의 각 부분별 주석(features 또는 annotations) 정보만 테이블 형식으로 표현한 포맷이다.

  • Gene, Exon, mRNA, EST 등 사용자가 정의한 다양한 타입별 주석을 <+>, <-> 방향까지 선택해서 기재할 수 있다.
  • 보통 GBrowser 에서 Genome 서열을 가시화 시킬때 각 Gene Model 정보를 입력하기 위한 데이터 파일로 많이 사용된다.
  • 큰 틀은 유지되지만, 그래프(ex;GC contents), 블럭(ex;gene, SNP), 연결된 블럭(ex;mRNA) 등 표현해야하는 주석 타입이 다양하다보니 마지막 컬럼은 버전마다 형식이 조금씩 다르다.
  • 버전에 따라 GFF2, GFF3, 또는 GTF 와 같이 업그레이드된 포맷이 존재한다.
  • GTF의 경우 transcript 단위로 정리되어 3번째 컬럼의 type of feature에서 'gene' 항목은 나오지 않으며 'transcript', 'mRNA'로 표기됨.

파일 형식 #

GFF에서는 '#'으로 주석을 달아 부가적인 정보를 표출할 수 있다.

##gff-version 3
##created 2019/01/01
Contig01  PFAM  gene  501  750  .  +  0  ID=geneA;Name=geneA 
Contig01  PFAM  exon  501  650  .  +  2  ID=exonA1;Parent=geneA 
Contig01  PFAM  exon  700  750  .  +  2  ID=exonA2;Parent=geneA 
...
  1. Reference sequence name : chromosome1, refContig1, sequence1 등
  2. Source of annotation : pfam, blast2go, interpro, est 등
  3. Type of feature : gene, exon, start_codon, cds, mRNA, repeat, rRNA, transcript, match 등
  4. 1-based, inclusive start coordinate : 시작 좌표
  5. 1-based, inclusive end coordinate : 끝 좌표
  6. Score : 존재할 수 있는 확률 값
  7. Strand : 특정 유전체 요소의 reference sequence에 대한 상대적인 방향성
    • '+' : 정방향, '-' : 역방향, '.' : 미상
  8. Frame : coding region 요소들로 open reading frame 1, 2, 3
  9. Attribute : 해당 요소에 대한 정보
    • '='로 분리된 tag/value 쌍, 다수의 특성은 세미콜론(;)으로 분리
    • gene definition을 정리할땐 'Note' 항목으로 사용

참고문헌 #

Incoming Links #

Related Data Sciences #

Related Bioinformaticses #

Suggested Pages #

0.0.1_20230725_7_v68