bcbio
#
Find similar titles
- 최초 작성자
-
최근 업데이트
yhshin@insilicogen.com
Structured data
- Category
- Software
bcbio-nextgen #
대용량 서열 데이터베이스 즉 NGS 데이터를 다루는 또 다른 팩키지를 소개하고자 한다. 이는 파이썬 언어로 만들어졌으며 variant calling, RNA-seq and small RNA 분석을 위한 도구들을 제공한다. 이 패키지에서는 단순히 입력 파일과 분석 파라미터만 입력하면 간단히 분석이 가능하다.
설치 #
wget https://raw.github.com/chapmanb/bcbio-nextgen/master/scripts/bcbio_nextgen_install.py
python bcbio_nextgen_install.py /usr/local/share/bcbio --tooldir=/usr/local \
--genomes GRCh37 --aligners bwa --aligners bowtie2
먼저 bcbio-nextgen을 위해서는 필요한 부가 프로그램들을 설치해야 한다. 먼저 reads를 mapping시키기 위한 bwa, bowtie2등을 설치한다. 위의 명령어로 간단하게 설정할 수 있으며 유전체 서열을 지정하여 다운받는다.
분석 #
bcbio_nextgen.py -w template freebayes-variant project1.csv sample1.bam sample2_1.fq sample2_2.fq
먼저 작업을 하기 위해서는 프로젝트로부터 FASTQ, BAM 파일을 지정하면 된다. 더불어 샘플의 메타 내용을 csv에 적어 입력하면 스크립트가 아래와 같이 기본 설정파일을 생성한다.
# to use for naming the output files and project directories.
fc_date: '110812'
fc_name: unique_name
# Directory to upload final results to. Also supports Galaxy and S3 upload.
upload:
dir: ../final
details:
# For each flowcell, you specify either the lane if the files follow standard
# naming conventions (1_110729_A81UJUABXX) or the names of the files if they
# are differently named. Can specify either one file for single end or two for
# paired.
- files: [/path/to/1_1-fastq.txt, /path/to/1_2-fastq.txt]
description: 'Sample 1'
genome_build: GRCh37
analysis: variant2
algorithm:
aligner: novoalign
variantcaller: gatk
이후 만들어진 분석 메타 파일을 지정하고 -n 옵션으로 사용할 총 코어의 수를 지정하여 다음 파일을 실행 한다.
cd project1/work
bcbio_nextgen.py ../config/project1.yaml -n 8
variant calling #
whole genome variant calling을 위해 bwa와 GATK 를 사용하는 예제이다. 예제는 plantinum genomes project를 사용하는데 이는 일루미나에서 생성된 파일이다
먼저 디렉토리 구조를 다음과 같이 설정한다.
├── config
│ └── NA12878-illumina.yaml
├── input
└── work
그후 입력 파일 디렉토리로 이동하여 해당 파일을 다운로드 한다(여기서의 예제는 EBI의 SRA를 이용한다)
cd input
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR091/ERR091571/ERR091571_1.fastq.gz
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR091/ERR091571/ERR091571_2.fastq.gz
wget ftp://ftp-trace.ncbi.nih.gov/giab/ftp/data/NA12878/variant_calls/NIST/\
NISTIntegratedCalls_13datasets_130719_allcall_UGHapMerge_HetHomVarPASS_VQSRv2.17_all_nouncert_excludesimplerep_excludesegdups_excludedecoy_excludeRepSeqSTRs_noCNVs.vcf.gz
wget ftp://ftp-trace.ncbi.nih.gov/giab/ftp/data/NA12878/variant_calls/NIST/\
union13callableMQonlymerged_addcert_nouncert_excludesimplerep_excludesegdups_excludedecoy_excludeRepSeqSTRs_noCNVs_v2.17.bed.gz
gunzip *.vcf.gz *.bed.gz
다음으로는 입력 파일에 대한 config파일을 세팅한다. cd config wget https://raw.github.com/chapmanb/bcbio-nextgen/master/config/examples/NA12878-illumina.yaml
이후 해당 디렉토리에서 config파일을 지정하여 분석을 수행 한다.
cd work
bcbio_nextgen.py ../config/NA12878-illumina.yaml -n 16