Skip to content

SAM #
Find similar titles

Structured data

Category
Analysis

SAM 파일이란? #

SAM 파일은 Sequence alignment data를 담고 있는 텍스트 파일(.txt)로 각 내용들은 탭(tab)으로 분리되어 alignment, mapping 정보를 담고 있다. Next-generation sequencing (NGS)을 통해 시퀀싱된 서열의 전사체 혹은 유전체 서열(Reference, @로 시작되는)에 FASTQ 파일을 다시 mapping시킨 형태의 파일이다.

SAM 파일은 텍스트 파일의 문자열 형식으로 저장하여 바로 열람이 가능하며, 이를 압축하고 색인화하여 바이너리 형식으로 변환한 것이 BAM 파일이다.

NGS의 발달로 불특정 다수의 organism에서 유전체 혹은 전사체 서열이 대량으로 시퀀싱되고 있다. Human의 경우는 개인차에 의한 다수의 변이 정보를 밝히고 이것이 질병과 연관된 변이인지를 밝히기 위해 시퀀싱된 reads는 유전체서열에 다시 remapping되기도 하고, 새로운 organism의 유전체 정보를 밝히기 위해서도 remapping이 이뤄지고 있다. SAM 파일은 '1000 genome project'를 진행하면서 공동 연구의 효율성을 위해 데이터의 공유를 표준화 하려는 방안으로 채택된 remapping의 표준 포맷이다.

Remapping을 위해 많이 이용하는 software인 BWA, Bowtie, CLCAssemblyCell등은 모두 mapping output으로 SAM 파일을 형성한다.

SAM 파일들을 다루는데 필요한 software package로는 SAMtools가 있다.

SAM 파일 구성 #

Header 부분에는 각 Chromosome에 mapping된 정보를 가지고 있으며, Align된 read들은 각 alignment 당 한 줄로 보여지게 된다.

Figure1

@HEADER : Reference로 이용된 서열의 정보, @ 표시로 시작
read_id : read name
flag : sam flag, mapping information로 2bit로 정의되어 있음, 아래참조
mapping reference id : 만약에 align된 read가 없으면 "*"로 표시
mapping position : 1-based index, read의 왼쪽 끝
mapping quality : alignment의 특이성(uniqueness)을 묘사, 0=특이성 없음, >10 아마도 특이함
CIGAR tag : mapping 형태, alignment 안의 insertions/deletions/matches의 위치 묘사 및 splice junctions의 부호화
mapping 횟수
MPOS/PNEXT : mate pair의 position 정보
ISIZE/TLEN : Template length
SEQ : Read Sequence
QUAL : Read Quality
TAGs

SAM file 내의 flag 정보 #

Figure2

관련 페이지 #

(http://www.incodom.kr/SAMtools)

Incoming Links #

Related Data Sciences #

Related Bioinformaticses #

Suggested Pages #

0.0.1_20140628_0