Skip to content

Reference-guided Alignment #
Find similar titles

Structured data

Category
Analysis

배열되지 않은 그대로의 데이터 #

Sanger, Roche 454 밖에 없던 Aligner가 시대가 지날수록 발전해가며 다양한 Aligner가 만들어 졌다. Illumina, AB Solid, Helicos Heliscope, Complete Genomics, Pacific Biosciences SMRT, Ion Torrent가 바로 그것이고 가면 갈수록 끝 없는 발전을 해 나갈 것이다.

번역되지 않은 Reads를 ASCII 코드를 이용해 컴퓨터 용어로 만들어 저장한다. T를 @로 저장할 시, @의 ASCII코드는 64인데 Base Quality라는 수치를 이용하려면 여기서 33을 빼서 31이라는 BQ수치를 얻을 수 있다. BQ수치는 에러가 날 가능성을 말해준다. BQ수치는 높을수록 에러가능성이 낮아진다.

BQ코드가 아닌 Aligner 종류에 따라서 에러율과 에러의 종류가 달라지게 된다.

경험적 수치와 이론적 수치는 BQ수치가 높을수록 차이가 나기 시작한다. 따라서 이는 재측정을 통해 수치를 바로 잡아야 한다.

Aligner 특징 #

재배열은 조각이 4000만 개가 존재하는 퍼즐 맞추기와 비슷하다. 두드러지는 조각은 맞추기 쉽고 찾기 어려운 조각은 맞추지 않아도 전체 그림을 유추하는 것이 가능하다.

  • Illumina : 에러들이 암호 끝에 모이는 경향을 이용한다.
  • Helicos : 단일분자일 때 사용가능하고 형광소가 빛을 내지 않고 발견되지 않으면 찾아내지 못한다..
  • 454 : 코드 A가 연속적으로 붙어있으면 몇 개가 붙어있고 어디가 에러인지 찾기가 힘들다.

Alignment Quality는 BQ와 비슷하게 Alignment가 잘못 배열될 가능성을 판단할 수 있다. 잘 배열된 Alignment가 하나 이상 있으면 AQ=0이다.

알고리즘 종류 Hashing : 조금씩 잘라내서 분석 Suffix Array/BWT : 끝에 위치한 코드를 분석한다.

결과형태 SAM : TEXT 형태고 비효율적이여서 큰 프로젝트에서는 쓰이지 않는다. Read name, Flag, Reference Position, AQ, CIGAR = Mate Position, LEN 순서로 글자를 배열한다.

Alignment 사후 과정 #

  • duplicate 다루기 : 그래프의 빨간 것은 남은 read의 양이고 검은 것은 제거된 duplicate의 양이다
  • INDEL Cleaning : duplicate가 전체적으로 분포되어 있을 때 제거에 용이하다.

좋은 Aligner의 조건 #

  • Speed : BWA < SOAPdenovo < Bowtie
  • Mismatch 율 : SOAPdenovo < Bowtie < BWA Aligner가 얼마나 좋은 지를 따지는 것보다 그 Aligner가 실험 결과에 얼마나 영향을 주었는가에 집중하자.
  • Trio conflict rate : Bowtie는 별로 좋지 않다.
  • Variant calling result : Bowtie < SOAPdenovo < BWA

결론 #

  • Alignment는 Sequencer의 기술에 의존한다.
  • 사후 과정은 필수다.
  • 표준 파일 형태는 BAM이다.

참고문헌 #

Suggested Pages #

0.0.1_20140628_0