Skip to content

CIGAR #
Find similar titles

Structured data

Category
Analysis

CIGAR string #

CIGAR string은 SAM format안에 위치해 있으며 structure variation을 분석하기 위해 주로 사용된다. CIGAR string은 총 9가지가 있으며 CNV 또는 indel을 추정하는데 유용하게 사용된다. 하지만 이는 Reference에 aligned match 됨을 의미하지 않으며 이러한 서열이 SAM or BAM안에 존재함으로 기존의 소프트웨어가 아닌 Home-built script를 만들고 이용할 때 주의가 필요하다.

Clipping #

앞서 설명한 CNV 같은 구조 변형에 대한 분석을 진행할 때 Clipping이 사용된다. Clipping은 Reference에 맵핑 되지 않는 부위로 이는 DNA의 구조적인 이유로 발생한다. 이러한 부위는 이후 변이 분석 등에 제외가 되어 사용되며 특히나 BAM또는 SAM으로부터 Sequence를 직접 뽑아 분석에 사용한다면 제외를 하고 서열을 추출해야 정확한 분석이 가능하다

Exclusion #

Hard clipping과는 다르게 Soft clipping은 BAM or SAM 안에 제거되지 않고 남아있다. 이런경우 많이 알려진 samtools 또는 GATK pipeline에서 자동으로 제거후 해당 위치의 변이를 계산하게 된다. 특히나 SAM 파일안의 Fregment size를 계산할 때 clipping은 포함되지 않는다

CIGAR operations #

Op BAM Description
M 0 alignment match (can be a sequence match or mismatch)
I 1 insertion to the reference
D 2 deletion from the reference
N 3 skipped region from the reference
S 4 soft clipping (clipped sequences present in SEQ)
H 5 hard clipping (clipped sequences NOT present in SEQ)
P 6 padding (silent deletion from padded reference)
= 7 sequence match
X 8 sequence mismatch

• H can only be present as the first and/or last operation.

• S may only have H operations between them and the ends of the CIGAR string.

• For mRNA-to-genome alignment, an N operation represents an intron. For other types of alignments,the interpretation of N is not defined.

• Sum of lengths of the M/I/S/=/X operations shall equal the length of SEQ.

참고문헌 #

SAMTOOLS : https://samtools.github.io

Incoming Links #

Related Bioinformaticses #

0.0.1_20140628_0