Skip to content

FASTQ #
Find similar titles

Structured data

Category
Analysis

FASTQ #

FASTQ format은 'AGCT'로 표현되는 생물학적 sequence와 아스키 코드 (ASCII) 문자로 표시된 각 염기에 대한 quality (Phred)score를 모두 저장하기 위한 Text-based format으로 주로 NGS 기술로 생산된 sequencing raw data에 많이 사용된다. 보통 quality 값은 두자리 숫자로 표시되다보니 대용량의 NGS data를 저장하는데 많은 용량을 차지하게 되기 때문에 사용 용량을 줄이기 위하여 quality 값을 아스키 코드로 대체한 것이다. FASTQ format은 원래 Wellcome Trust Sanger Institute에서 FASTA 형식의 sequence와 quality data를 묶기 위해 개발되었지만, 최근에는 Illumina Genome Analyzer와 같은 높은 처리량 sequencing 기기의 출력을 저장하기 위한 실질적인 표준으로 자리잡았다. Quality score는 일반적으로 2 ~ 40 범위에 있는 정수 (Q)이지만, 더 높은 값과 더 낮은 값을 사용하는 경우도 있으며, 특히 Illumina 플랫폼의 1.8 이상 버전에서는 Q 점수가 최대 41까지 reads가 생성된다.

FASTQ의 구성 #

@SEQ_ID
Sequence
+
Quality scores
  • 1번 line은 '@' 문자로 시작하고 sequence identifier와 선택적 description (FASTA 제목 line과 같은)으로 구성. 이 헤더는 유니크한 정보를 가지고 있음.
  • 2번 line은 sequence letter.
  • 3번 line은 '+' 문자로 시작하고, 선택적으로 동일한 sequence identifier가 다시옴.
  • 4번 line은 각 sequence에 대한 quality 값을 아스키 코드로 인코딩하며, sequence 문자와 동일한 수의 기호를 포함해야함.

SEQ_ID 정보 예시 #

@HWUSI-EAS100R:6:73:941:1973#0/1
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+HWUSI-EAS100R:6:73:941:1973#0/1
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
HWUSI-EAS100R the unique instrument name
6 flowcell lane
73 tile number within the flowcell lane
941 'x'-coordinate of the cluster within the tile
1973 'y'-coordinate of the cluster within the tile
#0 index number for a multiplexed sample (0 for no indexing)
/1 the member of a pair, /1 or /2 (paired-end or mate-pair reads only)
  • Flowcell lane : 보통 8 lane으로 구성되어 있음.
  • tile number : 하나의 lane에는 총 96개의 tile이 존재함.

Quality scores #

FASTQ 파일의 4번 line은 quality scores를 나타내며, phred score로 나타낸다. Image 출처 : https://learn.gencore.bio.nyu.edu/ngs-file-formats/quality-scores/
Phred score가 크면 클수록 맞을 확률이 높다.
이 quality 값을 아스키 코드로 인코딩했는데 여기서 아스키 코드(ASCII CODE)란 컴퓨터의 글자를 8개의 비트로 저장하는 방식이며, 화면을 출력할 때 한 base마다 quality를 한글자로 출력할 수 있다. 아래의 아스키 코드표를 참고하면 좋다.
Image
출처 : https://shaeod.tistory.com/228

FASTQ 보는 방법 #

FASTQ 파일은 .fastq.gz 확장자로 압축되어 생성이 되는데, 최대 수백만 개의 항목을 포함할 수 있으며 크기가 몇 메가바이트 또는 기가바이트가 될 수 있기 떄문에 보통 텍스트 편집기에서 열기에는 무리가 있다. 그렇기 때문에 큰 파일을 처리할 수 있는 텍스트 편집기 또는 명령줄을 통해 대용량 파일을 볼 수 있는 Unix 또는 Linux 시스템에 엑세스해야 한다.

Reference #

  1. https://snowple.tistory.com/328
  2. https://en.wikipedia.org/wiki/FASTQ_format#Format_converters
  3. https://www.drive5.com/usearch/manual/fastq_files.html
  4. https://support.illumina.com/bulletins/2016/04/fastq-files-explained.html
  5. https://shaeod.tistory.com/228
  6. https://learn.gencore.bio.nyu.edu/ngs-file-formats/quality-scores/

Incoming Links #

Related Data Sciences #

Related Bioinformaticses #

Suggested Pages #

0.0.1_20210630_7_v33