ArtificialFastqGenerator
#
Find similar titles
- (rev. 3)
- Seungho
Structured data
- Category
- Software
ArtificialFastqGenerator #
생물정보학을 이용한 분석도구 및 분석 성능을 평가하기 위해서는 종종 정답이 있는 데이터세트를 만들어 사용한다. 특히나 분석 기술이 고도화 된 현재로서 생물유래의 노이즈와 기계적으로 만들어지는 노이즈를 구분함은 중요성을 더해가고 있다. 위 Java기반의 도구를 사용하면 제공하는 Reference에 따른 Random reads를 생성하며 이를 통해 여러 Performance를 확인 할 수 있다.
Command #
java -jar ArtificialFastqGenerator.jar \
-O <outputPath> \
-R <referenceGenomePath> \
-S <startSequenceIdentifier> \
-F1 <fastq1ForQualityScores> -F2 <fast2ForQualityScores> \
-CMGCS <coverageMeanGCcontentSpread> \
-CMP <coverageMeanPeak> \
-CMPGC <coverageMeanPeakGCcontent> \
-CSD <coverageSD> \
-E <endSequenceIdentifier> \
-GCC <GCcontentBasedCoverage> \
-GCR <GCcontentRegionSize> \
-L <logRegionStats> \
-N <nucleobaseBufferSize> \
-OF <outputFormat> \
-RCNF <readsContainingNfilter> \
-RL <readLength> \
-SE <simulateErrorInRead> \
-TLM <templateLengthMean> \
-TLSD <templateLengthSD> \
-URQS <useRealQualityScores> \
-X <xStart> \
-Y <yStart>
필수 Arguments는 "-O"와 "-R"그리고 "-S"와 "-E"이며 S와 E는 Reference로 제공할 fasta 파일의 Header구분자이며 O는 생성될 fastq파일의 Prefix를 포함하여야 한다.
Example #
java -jar ArtificialFastqGenerator.jar -R miniReference.fasta -O C1 -S ">1" -E ">" -SE true
Reference #
Frampton, Matthew, and Richard Houlston. "Generation of artificial FASTQ files to evaluate the performance of next-generation sequencing pipelines." PloS one 7.11 (2012): e49110.