Skip to content

GTF #
Find similar titles

Structured data

Category
Biology

개요 #

GTF의 풀네임은 Gene Transfer Format이다. GFF와 같은 데이터 형식이다. 그러면 사람들은 말할것이다. "왜 GFF를 사용하면 되지 GTF포멧을 사용하여 혼란을 주나요?" 라고 물을 수 있다. 답은 GFF형식은 모든 유전체 요소에 대한 Annotation 정보를 저장하는 반면 GTF파일은 유전자에 한해 사용이 된다.

파일 형식 #

한 라인에 총 9개의 정보를 담고 있다.

 <seqname> <source> <feature> <start> <end> <score> <strand> <frame> [attributes] [comments]

아래는 GTF파일의 예제이다.

381 Twinscan  CDS          380   401   .   +   0  gene_id "001"; transcript_id "001.1";
381 Twinscan  CDS          501   650   .   +   2  gene_id "001"; transcript_id "001.1";
381 Twinscan  CDS          700   707   .   +   2  gene_id "001"; transcript_id "001.1";
381 Twinscan  start_codon  380   382   .   +   0  gene_id "001"; transcript_id "001.1";
381 Twinscan  stop_codon   708   710   .   +   0  gene_id "001"; transcript_id "001.1";

GFF vs GTF 차이 #

두 파일형식의 데이터형식내 속성은 같으나 사용법이 약간 다르다. 다른점은 아래와 같다.

  1. feature

CDS, start_codon, end_codon만 허락되며 옵션널하게 5UTR, 3UTR, inter, inter_CNS, intron_CNS, exon을 사용할 수 있다.

  1. attributes

GTF는 tag/vlaue를 스페이스로 분리한다. 무조건 attribute는 시작은 gene_id와 transcript_id로 시작하며 끝은 세미콜론으로 끝난다. 또한 텍스트값은 따옴표("text")안에 있어야한다.

자세한 사항은 GFF_and_GTF 페이지에서 확인할 수 있다.

Reference #

Incoming Links #

Related Bioinformaticses #

0.0.1_20140628_0