Skip to content

R (프로그래밍 언어) Bioconductor ShortRead #
Find similar titles

Structured data

Category
Software

SRA #

Bioconductor를 통해 다양한 데이터 파일을 입력받을 수 있다. 파일의 종류는 FASTA, FASTQ, BAM, GFF, BEDWIG 등이 있다. 분석 관련 패키지에서 Trimming, Transformation, Alignment등 을 수행할 수 있다. 기타 다른 패키지를 설치하면 QC, ChIP-seq, 발현분석, RNA-seq 등을 이용할 수 있다.

이번에는 간략하게 SRA(sequence read archive)를 다뤄보고자 한다.

설치 #

> source("http://bioconductor.org/biocLite.R")
> biocLite("ShortRead")

패키지 설치는 간략하게 위와 같이 진행할 수 있다. 설치 후에 관련 도움말을 얻기 위해서는 다음과 같이 진행한다. 기본적으로 이 팩키지는 서열입력, 품질관리, 필터링, 파싱 등 다양한 기능을 가지고 있다.

> library("ShortRead")

도움말 #

> help(package="ShortRead")
> ?readFastq
> browseVignettes(package="ShortRead")
> help.start()

관련 패키지의 사용법은 위와 같이 사용한다. 위의 경우에는 ShortRead 패키지의 도움말을 이용하거나 readfastq 의 함수 기능을 알아볼수도 있다.

사용법 #

dataDir <- <...>  # 작업 워크 디렉토리
fastqDir <- file.path(dataDir, "fastq") # fastq 파일 포맷 입력 디렉토리
bamDir <- file.path(dataDir, "bam") # Bam 파일 디렉토리
outputDir <- file.path(dataDir, "output") # 분석 결과 저장 디렉토리

서열 파일은 기본적으로 R 프로그램 영역 밖에 있기 때문에 fastq에 접근할 수 있도록 fastq 파일이 있는 경로를 fastqDir에 지정해줘야 한다.

다음의 예제는 서열 파일의 품질 점검을 위한 예제이다.

서열 파일 품질 점검 및 리포팅

library(ShortRead)
fls <- list.files(fastqDir, "fastq$", full=TRUE)
names(fls) <- sub(".fastq", "", basename(fls)) # 확장자 .fastq 파일 핸들 지정
## fastq 파일의 사이즈가 클 경우에는 FastqSampler를 이용한다.
qas <- lapply(seq_along(fls),
          function(i, fls) qa(readFastq(fls[i]), names(fls)[i]), fls)
qa <- do.call(rbind, qas)
save(qa, file=file.path(outputDir, "qa.rda")
browseURL(report(qa))

이번 단계에서는 ShortRead, BioStrings 두 개의 팩키지를 이용하여 low quality reads를 핸들링할 수 있다. 또한 정렬 프로그램은 R 프로그램의 영역이 아니므로 외부 툴을 이용한다. 결과로는 한 샘플당 한의 BAM 파일을 생성한다.

Suggested Pages #

0.0.1_20140628_0