GFF
#
Find similar titles
- 최초 작성자
-
최근 업데이트
yhshin@insilicogen.com
Structured data
- Category
- Analysis
Table of Contents
개요 #
GFF(General Feature Format)는 어떤 서열의 각 부분별 주석(features 또는 annotations) 정보만 테이블 형식으로 표현한 포맷이다.
- Gene, Exon, mRNA, EST 등 사용자가 정의한 다양한 타입별 주석을 <+>, <-> 방향까지 선택해서 기재할 수 있다.
- 보통 GBrowser 에서 Genome 서열을 가시화 시킬때 각 Gene Model 정보를 입력하기 위한 데이터 파일로 많이 사용된다.
- 큰 틀은 유지되지만, 그래프(ex;GC contents), 블럭(ex;gene, SNP), 연결된 블럭(ex;mRNA) 등 표현해야하는 주석 타입이 다양하다보니 마지막 컬럼은 버전마다 형식이 조금씩 다르다.
- 버전에 따라 GFF2, GFF3, 또는 GTF 와 같이 업그레이드된 포맷이 존재한다.
- GTF의 경우 transcript 단위로 정리되어 3번째 컬럼의 type of feature에서 'gene' 항목은 나오지 않으며 'transcript', 'mRNA'로 표기됨.
파일 형식 #
GFF에서는 '#'으로 주석을 달아 부가적인 정보를 표출할 수 있다.
##gff-version 3
##created 2019/01/01
Contig01 PFAM gene 501 750 . + 0 ID=geneA;Name=geneA
Contig01 PFAM exon 501 650 . + 2 ID=exonA1;Parent=geneA
Contig01 PFAM exon 700 750 . + 2 ID=exonA2;Parent=geneA
...
- Reference sequence name : chromosome1, refContig1, sequence1 등
- Source of annotation : pfam, blast2go, interpro, est 등
- Type of feature : gene, exon, start_codon, cds, mRNA, repeat, rRNA, transcript, match 등
- 1-based, inclusive start coordinate : 시작 좌표
- 1-based, inclusive end coordinate : 끝 좌표
- Score : 존재할 수 있는 확률 값
- Strand : 특정 유전체 요소의 reference sequence에 대한 상대적인 방향성
- '+' : 정방향, '-' : 역방향, '.' : 미상
- Frame : coding region 요소들로 open reading frame 1, 2, 3
- Attribute : 해당 요소에 대한 정보
- '='로 분리된 tag/value 쌍, 다수의 특성은 세미콜론(;)으로 분리
- gene definition을 정리할땐 'Note' 항목으로 사용