Skip to content

FASTQ #
Find similar titles

Structured data

Category
Analysis

FASTQ #

FASTQ format은 'AGCT'로 표현되는 생물학적 sequence와 아스키 코드 (ASCII) 문자로 표시된 각 염기에 대한 quality (Phred)score를 모두 저장하기 위한 Text-based format으로 주로 NGS 기술로 생산된 sequencing raw data에 많이 사용된다. 보통 quality 값은 두자리 숫자로 표시되다보니 대용량의 NGS data를 저장하는데 많은 용량을 차지하게 되기 때문에 사용 용량을 줄이기 위하여 quality 값을 아스키 코드로 대체한 것이다. FASTQ format은 원래 Wellcome Trust Sanger Institute에서 FASTA 형식의 sequence와 quality data를 묶기 위해 개발되었지만, 최근에는 Illumina Genome Analyzer와 같은 높은 처리량 sequencing 기기의 출력을 저장하기 위한 실질적인 표준으로 자리잡았다. Quality score는 일반적으로 2 ~ 40 범위에 있는 정수 (Q)이지만, 더 높은 값과 더 낮은 값을 사용하는 경우도 있으며, 특히 Illumina 플랫폼의 1.8 이상 버전에서는 Q 점수가 최대 41까지 reads가 생성된다.

FASTQ의 구성 #

@SEQ_ID
Sequence
+
Quality scores
  • 1번 line은 '@' 문자로 시작하고 sequence identifier와 선택적 description (FASTA 제목 line과 같은)으로 구성.
  • 2번 line은 sequence letter.
  • 3번 line은 '+' 문자로 시작하고, 선택적으로 동일한 sequence identifier가 다시옴.
  • 4번 line은 각 sequence에 대한 quality 값을 아스키 코드로 인코딩하며, sequence 문자와 동일한 수의 기호를 포함해야함.

SEQ_ID 정보 #

@HWUSI-EAS100R:6:73:941:1973#0/1
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+HWUSI-EAS100R:6:73:941:1973#0/1
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
HWUSI-EAS100R the unique instrument name
6 flowcell lane
73 tile number within the flowcell lane
941 'x'-coordinate of the cluster within the tile
1973 'y'-coordinate of the cluster within the tile
#0 index number for a multiplexed sample (0 for no indexing)
/1 the member of a pair, /1 or /2 (paired-end or mate-pair reads only)

FASTQ 보는 방법 #

FASTQ 파일은 .fastq.gz 확장자로 압축되어 생성이 되는데, 최대 수백만 개의 항목을 포함할 수 있으며 크기가 몇 메가바이트 또는 기가바이트가 될 수 있기 떄문에 보통 텍스트 편집기에서 열기에는 무리가 있다. 그렇기 때문에 큰 파일을 처리할 수 있는 텍스트 편집기 또는 명령줄을 통해 대용량 파일을 볼 수 있는 Unix 또는 Linux 시스템에 엑세스해야 한다.

Reference #

  1. https://snowple.tistory.com/328
  2. https://en.wikipedia.org/wiki/FASTQ_format#Format_converters
  3. https://www.drive5.com/usearch/manual/fastq_files.html
  4. https://support.illumina.com/bulletins/2016/04/fastq-files-explained.html

Incoming Links #

Related Data Sciences #

Related Bioinformaticses #

Suggested Pages #

0.0.1_20140628_0