Table of Contents
Reference-based genome assembly #
Genome sequence assembly #
정의 #
유전체 서열 조립(Genome sequence assembly)은 원래의 서열을 알아내기 위해 시퀀싱 과정을 통해 잘린 서열 조각들을 순서대로 정렬하여 긴 서열로 만드는 것을 의미한다. 서열 조립 방법에는 크게 두 가지의 종류로 나눌 수 있다. 서열 조립 시, 참조되는 서열의 유무에 따라 De novo assembly 방법과 Reference-based assembly 방법으로 나뉜다.
Reference-based genome assembly #
정의 #
Reference-based genome assembly 방법은 진화적으로 거리가 가까운 종 중, 이미 어셈블리가 되어 있는 종의 유전체 서열을 참조하여 서열 조립을 진행하는 방법이다. 서로 다른 종의 경우 서열상에서도 차이가 존재하지만, De novo assembly 방법처럼 짧은 길이의 시퀀싱 리드들을 맞춰서 새로 만드는 것보다는 소요되는 시간과 메모리 등을 고려했을 때 효율적이다. 또한, De novo assembly 방법만을 이용했을 때는 Scaffold level 수준 정도까지 가능하지만, reference-based genome assembly 방법은 참조 서열이 chromosome level일 경우 chromosome level까지 가능하다.
이러한 장점을 이용해서, De novo assembly를 진행해서 scaffold level의 서열을 얻은 후 reference-based genome assembly 방법을 이용해서 chromosome level로 업데이트하는 방법도 있다.
만약에 진화적으로 거리가 가까운 종 중 대부분 유전체 서열 구축이 되어 있다면, 어떤 종을 참조해야 할까? 우선 거리가 가장 가까운 종을 선택하는 것이 좋다. 진화적으로 거리가 멀어질수록 두 종의 서열 간의 차이는 점점 늘어나기 때문이다. 혹은 거리가 유사하다면 유전체 서열의 통계치가 좋은 종을 선택하면 된다. 유전체 서열의 통계치에는 BUSCO 혹은 CEGMA, N50 등이 있다.
과정 #
자세한 과정은 프로그램마다 조금씩 다르므로, 세세한 모든 과정을 설명하기는 어렵다. 간단하게 두 가지로 나누면, 첫 번째는 시퀀싱 리드와 참조 서열을 줬을 때, 두 번째는 contig(혹은 scaffold) level의 서열과 scaffold(혹은 chromosome) level의 서열을 줬을 때이다.
먼저 시퀀싱 리드와 참조 서열이 주어졌을 때는 시퀀싱 리드를 참조 서열에 매핑을 한 후, 매핑 정보를 이용해 서열 조립을 하는 것이다. 이럴 때, 처음부터 다른 종의 서열을 참조하여 어셈블리가 진행되기 때문에 서열상의 오조립(misassembly)이 발생할 수 있으며, 두 종간의 구조적인 차이가 고려되지 않을 수 있다. 하지만 이런 방법을 사용하는 프로그램들은 어셈블리 중간에 이러한 부분이 발생하지 않도록 각자의 방법대로 처리하게 되어 있다.
두 번째로 시퀀싱 리드가 아닌 두 서열을 줬을 때이다. 이 경우에는 타겟 서열의 scaffolding을 진행하는 방법이다. 실제로는 하나의 서열이지만, 여러 개의 contig들로 쪼개진 것을 두 종간의 서열 유사성을 이용해 이어주는 방법이다.
프로그램 #
참고문헌 #
- Current Strategies of Polyploid Plant Genome Sequence Assembly: Kyriakidou, Maria, et al: Frontiers in plant science 1
- Sequence Assembly - 염기서열 조립, 유전체 조립 2
- RaGOO: fast and accurate reference-guided scaffolding of draft genomes.: Alonge, Michael, et al.: Genome biology 3
- RGAAT: A reference-based genome assembly and annotation tool for new genomes and upgrade of known genomes.: Liu, Wanfei, et al.: Genomics, proteomics & bioinformatics 5
- RECORD: reference-assisted genome assembly for closely related genomes.: Buza, Krisztian, Bartek Wilczynski, and Norbert Dojer.: International journal of genomics 6
Suggested Pages #
- 0.025 Scaffold
- 0.025 Indel
- 0.025 Human genome project
- 0.025 Illumina HiSeq2000
- 0.025 Assembly
- 0.025 FASTQ
- 0.025 FASTA
- 0.025 Roche 454 GS-FLX
- 0.025 유전체 어셈블리
- 0.025 통계량
- More suggestions...