Skip to content

QUAST #
Find similar titles

Structured data

Category
Software

QUAST #

QUAST란? #

QUAST는 Quality Assessment Tool을 말하여 이 tool은 다양한 metrics들을 계산함으로써 genome assemblies를 평가한다. QUAST는 MUMmer, GeneMakS, GeneMakr-ES, GlimmerHMM 그리고 GAGE를 이용한다. 추가적으로 MetaQUAST는 MetaGeneMark, Krona tools, BLAST 그리고 SILVA 16S rRNA database를 사용하고 있다.

QUAST의 설치방법 #

  • QUAST는 Linux와 Max OS에서 작동한다.
    • 요구조건들
      1. python 2 ( 2.5 또는 그 이상 )
      2. perl 5.6.0 또는 그 이상
      3. g ++
      4. make
      5. sh
      6. csh
      7. sed
      8. awk
      9. ar

이와 같은 모든 tool들은 모든 linux에 이미 설치되어 있지만, Mac OS에서는 make, g++, 그리고 ar이 없다. 그래서 이런 경우에 Xcode(또는 Command line Tools for Xcode)를 사용하면 된다. QUAST는 또한 plot을 그리기 위한 Matplotlib Python library를 설치하는 것을 요구한다. Matplotlib version 1.0 또는 그 이상을 설치해야한다.

Python pip-installer를 이용해서 설치할 수 있다. : " pip install matplotlib "

또는 Easy_install Python module을 사용해서 설치할 수도 있다. : " easy_install matplotlib "

또는 Ubuntu에 직접 입력해서 설치할 수도 있다. : " sudo apt-get install python-matplotlib "

QUAST는 자동적으로 compiles 되어 있기 때문에 특별히 설치를 위한 command line을 입력할 필요가 없다. 그래서 당신이 만약 QUAST를 run 할 경우 : python quast.py --test (if you plan to use quast.py) python metaquast.py --test (if you plan to use metaquast.py with references) python metaquast.py --test-no-ref (if you plan to use metaquast.py without references)

QUAST의 일반적인 사용방법 #

  1. Input data : test_data directory에는 예제 assembly 결과, reference, gene 그리고 operon file들이 있다.

    1-1. Sequences : 이 tool은 assembly 결과와 reference를 fasta format으로 받아들인다. file들이 zip, gzip 또는 bzip2로 압축되어 있어도 가능하다. 다수의 reference chromosome들은 하나의 single file 내에 서열들로 구분되어 제공되면 된다. 최대 assembly 길이는 4.29 Gbp이다. reference 서열(예를 들어 chromosome)의 최대 길이는 536 Mbp이다. reference file 내 서열의 수는 제한이 없다. 이러한 기준들은 QUAST가 reference genome에 contig들을 align하는 tool은 Nucmer의 기준이다.

    1-2. Gene들 그리고 operon들 : Reference 내에 유전자와 operon의 위치를 file 내에 명시할 수 있다. QUAST는 전체적으로 count하고 부분적으로 align된 지역들도 count할 것이다. 그리고 output으로 total value와 cumulative plot을 보여줄 것이다. 이때 사용되는 file format으로는 : - GFF, version 2 그리고 3( note : / field는 "gene" 또는 "operon"이여야 한다.) - NCBI에서 사용하는 format( Summary (text) ) - 4개의 tab으로 구분된 column들 : sequence name, gene/operon id, start position, end position

    1-3. GAGE mode : GAGE(http://gage.cbcb.umd.edu/index.html)는 잘 알려진 assessment tool이다. 하지만 제한적인 특징이 있다. : - 오직 하나의 assembly만 run 할 수 있다. 이것은 assembly 간의 비교가 어렵다. - 최소 contig 길이(200bp)에 대한 고정된 한계 값이 있다.

    이러한 issue들은 QUAST 내 GAGE mode를 사용함으로써 해결할 수 있다(run할 때 --gage를 같이 사용한다.). QUAST는 명시된 한계값에 의해서 contig들을 filtering 하고 각 assembly에 대해 GAGE를 run한다.

QUAST의 사용 옵션들 #

  • QUAST는 command line으로 작동시킨다. : python quast.py [options]

  • 기본 옵션들

    1. -o : output directory로 default 값은 quast_results/resutls_ 이다. NOTE : QUAST의 값을 directory에서 반복해서 run을 하면 Nucmer alignment들을 재사용할 것이다. 따라서 효율적으로 이미 계산된 결과를 재사용할 수 있을 것이다.

    2. -R : reference genome file이다. 선택사항이며 많은 metrics들이 reference 없이 평가되어지지 않는다. 만약 이것이 제한된다면, QUAST는 reference가 없어 평가되어지지 않는 metrics들을 보고해 줄 것이다.

    3. -G ( 또는 --genes ) : reference 내 gene 위치에 대한 file로 이 file format의 상세한 정보는 section 2.2를 참고해야 한다. 만약 당신이 gene position을 가지고 있지 않다면, 당신은 QUAST의 --gene-finding을 사용해서 예측된 gene들을 만들 수 있다.

    4. -O ( 또는 --operons ) : reference 내 operon 위치에 대한 file로 이 file format의 상세한 정보는 section 2.2를 참고해야 한다.

    5. --min-contig( 또는 -m ) : contig 길이에 대한 낮은 한계 값이다. 짧은 contig들은 고려하지 않을 것이다. 몇몇 metrics에서 제외될 것이다. section 3을 참고. 이것의 default 값은 500이다.

Reference #

Suggested Pages #

0.0.1_20140628_0