Skip to content

MASURCA #
Find similar titles

Structured data

Category
Software

MASURCA assembler #

MASURCA assemble program 정의 #

Maryland Super-Read Celera Assembler(요약해서 MaSuRCA assembler)는 whole-genome shotgun sequencing data를 assembly하는 program입니다. 이 program은 de bruijn graph와 overlap-layout-consensus 접근법을 조합해서 assembly합니다. 자세히 말하면 MaSuRCA assembler은 overlap-layout-consensus의 장점인 read 길이와 sequencing error에 대해서 유연하게 접근할 수 있다는 점과 de bruijn graph의 계산 효율성을 모두 가져와서 assembly하는 전략을 사용하고 있습니다.

  1. MASURCA assembler 사용을 위한 요구조건
    • MaSuRCA assembler는 C++과 perl programming language로 작성되었으며, 아래와 같은 요구 사항들을 따릅니다.
      1. GNU C++ compiler g++ version 4.7 이상
      2. GNU make
      3. Perl version 5.8 이상
      4. library bz2
      5. Descriptive library
  2. 성능에 따른 예상 계산 시간 이 예상 시간은 최소 configuration과 짧은 read에 경우로 계산했을 경우입니다.
    • Bacteria(up to 10Mb): < 1 hour
    • Insect(up to 500Mb): 1-2 day
    • Avian/small plant(up to 1Gb): 4-5 day
    • Mammalian genomes(up to 3Gb): 15-20 day
    • Plant genomes(up to 30Gb): 60-90 day

MASURCA assembler의 사용방법 #

MASURCA assembler의 간략한 사용방법으로 자세한 설명을 확인하기 위해서는 MASURCA assembler 사용방법을 확인하면 됩니다. 이 assembler는 read file의 path와 몇 가지 parameter들을 명시한 configuration file을 통해서 실제로 assembler를 사용할 수 있는 shell script를 생성할 수 있으며, 생성된 shell script를 통해서 assembler를 가동할 수 있습니다.

* Configuration file을 생성하는 방법
 MASURCA/bin/masurca -g configuration.txt
* 생성된 configuration file로 MASURCA assembler를 시작하는 방법
 $ MASURCA/bin/masurca configuration.txt ./assemble.sh

Configuration file의 구성 #

configuration file은 두 가지 section으로 구성되어 있습니다. data 그리고 parameters. 각 section은 end로 구분되며 각 section은 아래와 같은 내용으로 구성됩니다.

DATA #

이 section에서는 assembly를 위한 read file의 위치와 read file 종류를 명시하게 됩니다. 각 line으로 library를 표현하고 총 3가지 유형으로 PE=, JUMP=, OTHER=가 있습니다.

* PE library의 표시방법
PE = aa(두 문자로 표시) (insert size) (standard deviation) /data/fwd_reads.fastq /data/rev_reads.fastq
* 다른 data type(454, Sanger, etc)들은 CABOG format fRG file로 변화시켜야 합니다. [CABOG documentation](http://sourceforge.net/apps/mediawiki/wgs‐ assembler/index.php?title=Main_Page)

PARAMETERS #

대표적인 parameter들은 NUM_THREADS =, JF_SIZE =가 있습니다. JF_SIZE는 genome size의 10x로 설정하면 됩니다.

MASURCA assembly 결과 #

assembly 결과 file은 CA/10-gapclose directory 아래에 위치하며 file 이름은 contig sequence인 'genome.ctg.fasta' 그리고 scaffold sequence 'genome.scf.fasta'입니다.

0.0.1_20210630_7_v33