Skip to content

SAM #
Find similar titles

Structured data

Category
Analysis

SAM 파일이란? #

Next-generation sequencing (NGS)을 통해 시퀀싱된 서열의 전사체 혹은 유전체 서열에 다시 mapping된 형태의 text 파일이다.

NGS의 발달로 불특정 다수의 organism에서 유전체 혹은 전사체 서열이 대량으로 시퀀싱되고 있다. Human의 경우는 개인차에 의한 다수의 변이 정보를 밝히고 이것이 질병과 연관된 변이인지를 밝히기 위해 시퀀싱된 reads는 유전체서열에 다시 remapping되기도 하고, 새로운 organism의 유전체 정보를 밝히기 위해서도 remapping이 이뤄지고 있다. SAM 파일은 '1000 genome project'를 진행하면서 공동 연구의 효율성을 위해 데이터의 공유를 표준화 하려는 방안으로 채택된 remapping의 표준 포맷이다.

Remapping을 위해 많이 이용하는 software인 BWA, Bowtie, CLCAssemblyCell등은 모두 mapping output으로 SAM 파일을 형성한다.

SAM 파일 구성 #

Figure1

@HEADER (Reference로 이용된 서열의 정보)
read_id
flag (mapping information로 2bit로 정의되어 있음, 아래참조)
mapping reference id
mapping position
mapping quality
CIGAR tag (mapping 형태)
mapping 횟수
MPOS/PNEXT (mate pair의 position 정보)
ISIZE/TLEN (template length)
SEQ
QUAL
TAGs

SAM file 내의 flag 정보 #

Figure2

CIGAR tag 정보 #

Figure3

관련 페이지 #

(http://www.incodom.kr/SAMtools)

Incoming Links #

Related Data Sciences #

Related Bioinformaticses #

Suggested Pages #

0.0.1_20140628_0