Skip to content

HTSeq #
Find similar titles

Structured data

Category
Software

HTSeq이란? #

HTSeq의 간략한 소개 #

  • Sequencing data의 분석에서 tool 사이에 접착제와 같은 역할 또는 특정한 분석 작업을 수행하기 위해서 종종 사용자가 script를 작성해야할 필요가 있다. 또한 HTSeq은 gff 정보를 이용해서 설정 영역에 read가 얼마나 mapping되었는지 쉽게 계산해준다. HTSeq은 이러한 정보를 이용하기에 유용한 Python package이다. HTSeq의 기능에 대한 정보로

    • Data quality를 연구하기 위한 base-call quality score들에 대해서 통계적으로 요약하여 얻을 수 있다.
    • Genome browser 내에서 visualization하기 위한 것들을 나타내주고 coverage vector를 계산한다.
    • GFF file로부터 annotation data를 읽을 수 있다.
    • Exon 그리고 gene으로 RNA-seq 실험으로부터 얻은 read들을 align하고 배치할 수 있다.

HTSeq의 기능 중 read counting #

  • 사용자가 각 유전자의 exonic region 안으로 얼마나 많은 read들이 떨어지는 지 알고 싶다면, 이 목적을 위해서 우리는 첫 번째로 exon의 위치에 대한 정보를 읽을 필요가 있다. 이와 같은 정보의 편리한 source는 Ensembl로부터 GTF file을 받는 것이다. HTSeq은 GFF file 내 정보를 읽을 수 있는 GFF_Reader class를 제공한다.

    예제 : gff_file = HTSeq.GFF_Reader("gff_name", ...)

  • 더 쉬운 사용방법으로는 위에 처럼 직접 작성하지 않고 HTSeq-count를 사용해서 결과를 얻는 방법이 있다.

    예제 : htseq-count [option]

  • 중요한 점 strandedness에 대해서 default는 yes이다. 만약 당신의 RNA-Seq data가 strand-specific protocol로 만들어지지 않았다면 이 것은 read의 절반을 잃어버린다. 그런 이유로 사용자가 strand-specific data를 가지지 않았다면 --stranded=no 옵션을 설정해야 한다.

Reference #

0.0.1_20140628_0