Skip to content

FASTQ #
Find similar titles

Structured data

Category
Analysis

FASTQ는 주로 NGS 기술로 생산된 시퀀싱 raw data에 많이 사용된다. 시퀀싱한 서열은 서열과 quality 값을 같이 표기해 줘야 하는데 보통 quality 값이 두자리 숫자이다 보니 대용량의 NGS 데이터를 저장하는데 많은 용량을 차지하게 된다 그래서 이 quality 값을 아스키 코드로 대치하여 한 자리의 문자열로 표기함으로써 사용 용량을 줄인 포맷이다.

예를 들어보면 다음과 같은 4줄의 형식으로 구분이 된다.

   @SEQ_ID
   GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
   +
   !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

1번 line은 sequence identifier 로 @로 시작하며 시퀀스 정보에 대한 설명이 나타나 있다. 2번 line은 시퀀스 파일이다. 3번 line은 +로 표시한다. 마지막 4번 line은 시퀀싱의 각 포지션에 대한 quality 정보를 아스키코드로 표현하고 있다.

Incoming Links #

Related Data Sciences #

Related Bioinformaticses #

Suggested Pages #

0.0.1_20140628_0