R (프로그래밍 언어)
Bioconductor
ShortRead
#
Find similar titles
- 최초 작성자
- 최근 업데이트
Structured data
- Category
- Software
Table of Contents
SRA #
Bioconductor를 통해 다양한 데이터 파일을 입력받을 수 있다. 파일의 종류는 FASTA, FASTQ, BAM, GFF, BED 및 WIG 등이 있다. 분석 관련 패키지에서 Trimming, Transformation, Alignment등 을 수행할 수 있다. 기타 다른 패키지를 설치하면 QC, ChIP-seq, 발현분석, RNA-seq 등을 이용할 수 있다.
이번에는 간략하게 SRA(sequence read archive)를 다뤄보고자 한다.
설치 #
> source("http://bioconductor.org/biocLite.R")
> biocLite("ShortRead")
패키지 설치는 간략하게 위와 같이 진행할 수 있다. 설치 후에 관련 도움말을 얻기 위해서는 다음과 같이 진행한다. 기본적으로 이 팩키지는 서열입력, 품질관리, 필터링, 파싱 등 다양한 기능을 가지고 있다.
> library("ShortRead")
도움말 #
> help(package="ShortRead")
> ?readFastq
> browseVignettes(package="ShortRead")
> help.start()
관련 패키지의 사용법은 위와 같이 사용한다. 위의 경우에는 ShortRead 패키지의 도움말을 이용하거나 readfastq
의 함수 기능을 알아볼수도 있다.
사용법 #
dataDir <- <...> # 작업 워크 디렉토리
fastqDir <- file.path(dataDir, "fastq") # fastq 파일 포맷 입력 디렉토리
bamDir <- file.path(dataDir, "bam") # Bam 파일 디렉토리
outputDir <- file.path(dataDir, "output") # 분석 결과 저장 디렉토리
서열 파일은 기본적으로 R 프로그램 영역 밖에 있기 때문에 fastq에 접근할 수 있도록 fastq 파일이 있는 경로를 fastqDir에 지정해줘야 한다.
다음의 예제는 서열 파일의 품질 점검을 위한 예제이다.
서열 파일 품질 점검 및 리포팅
library(ShortRead)
fls <- list.files(fastqDir, "fastq$", full=TRUE)
names(fls) <- sub(".fastq", "", basename(fls)) # 확장자 .fastq 파일 핸들 지정
## fastq 파일의 사이즈가 클 경우에는 FastqSampler를 이용한다.
qas <- lapply(seq_along(fls),
function(i, fls) qa(readFastq(fls[i]), names(fls)[i]), fls)
qa <- do.call(rbind, qas)
save(qa, file=file.path(outputDir, "qa.rda")
browseURL(report(qa))
이번 단계에서는 ShortRead
, BioStrings
두 개의 팩키지를 이용하여 low quality reads를 핸들링할 수 있다. 또한 정렬 프로그램은 R 프로그램의 영역이 아니므로 외부 툴을 이용한다. 결과로는 한 샘플당 한의 BAM 파일을 생성한다.