Skip to content

ArtificialFastqGenerator #
Find similar titles

Structured data

Category
Software

ArtificialFastqGenerator #

생물정보학을 이용한 분석도구 및 분석 성능을 평가하기 위해서는 종종 정답이 있는 데이터세트를 만들어 사용한다. 특히나 분석 기술이 고도화 된 현재로서 생물유래의 노이즈와 기계적으로 만들어지는 노이즈를 구분함은 중요성을 더해가고 있다. 위 Java기반의 도구를 사용하면 제공하는 Reference에 따른 Random reads를 생성하며 이를 통해 여러 Performance를 확인 할 수 있다.

Command #

java -jar ArtificialFastqGenerator.jar \
    -O <outputPath> \
    -R <referenceGenomePath> \
    -S <startSequenceIdentifier> \
    -F1 <fastq1ForQualityScores> -F2 <fast2ForQualityScores> \
    -CMGCS <coverageMeanGCcontentSpread> \
    -CMP <coverageMeanPeak> \
    -CMPGC <coverageMeanPeakGCcontent> \
    -CSD <coverageSD> \
    -E <endSequenceIdentifier> \
    -GCC <GCcontentBasedCoverage> \
    -GCR <GCcontentRegionSize> \
    -L <logRegionStats> \
    -N <nucleobaseBufferSize> \
    -OF <outputFormat> \
    -RCNF <readsContainingNfilter> \
    -RL <readLength> \
    -SE <simulateErrorInRead> \
    -TLM <templateLengthMean> \
    -TLSD <templateLengthSD> \
    -URQS <useRealQualityScores> \
    -X <xStart> \
    -Y <yStart>

필수 Arguments는 "-O"와 "-R"그리고 "-S"와 "-E"이며 S와 E는 Reference로 제공할 fasta 파일의 Header구분자이며 O는 생성될 fastq파일의 Prefix를 포함하여야 한다.

Example #

java -jar ArtificialFastqGenerator.jar -R miniReference.fasta -O C1 -S ">1" -E ">" -SE true

Reference #

Frampton, Matthew, and Richard Houlston. "Generation of artificial FASTQ files to evaluate the performance of next-generation sequencing pipelines." PloS one 7.11 (2012): e49110.

0.0.1_20210630_7_v33