Skip to content

Sequence Read Archive #
Find similar titles

Structured data

Category
Database

Sequence Read Archive(SRA) #

Image

  • Roche 454 GS System, Illumine Genome Analyzer, SOLiD System 등의 NGS 기술을 통해 얻을 수 있는 서열 데이터를 저장하는 NCBI 데이터베이스
  • SRA는 고성능 시퀀싱 데이터에 대한 미국 국립 보건원(NIH)의 1차 아카이브로, NCBIEBI(European Bioinformatics Institute), DDBJ(DNA Database of Japan) 간 국제적 제휴 아카이브의 일부분으로 세 기관에서 제출 받은 데이터는 서로 공유하고 있으며, 현재 100 terabyte 이상의 short read data 보유하고 있다

SRA 데이터 등록 절차 #

  • SRA에 데이터를 등록하기 위해서는 NCBI 계정으로 로그인 필요하며, SRA 등록 시 전제조건으로 NCBI의 BioProject와 BioSample 데이터베이스에 프로젝트와 생물학적 샘플 등록이 필요하다
    • BioProject : 시퀀싱 연구의 목적
    • BioSample : 실험에 사용된 시퀀싱 되어진 생물학적 물질의 특성 기록

1. BioProject 생성 #

  • 등록 포털 홈 페이지에서 “BioProject”로 이동 한 후, “New submission”을 클릭하여 새로 생성
  • BioProject 등록 시 해당 프로젝트에 대한 accession(PRJNA#) 부여
  • 프로젝트가 완전히 등록되지 않은 경우 임시 등록 ID(SUB#) 부여
  • SRA 등록에서 등록된 프로젝트가 STUDY로 변경되면 SRA accession(SRP#) 부여

Image

2. BioSample 생성 #

  • 등록 포털 홈 페이지에서 “BioSample”로 이동 한 후, “New submission”을 클릭하여 새로 생성
  • BioSample 등록 시 해당 프로젝트에 대한 accession(SAMN#) 부여
  • 샘플이 완전히 등록되지 않은 경우 임시 등록 ID(SUB#) 부여
  • SRA 등록에서 등록된 샘플이 SAMPLE로 변경되면 SRA accession(SRS#) 부여

Image

3. SRA 메타데이터 등록 #

  • SRA 메타데이터 입력 : 프로젝트, 샘플이나 실험, 파일명 등에 연결되는 정보
  • SRA submission 생성 및 실험(Experiment)를 생성하고 BioProject와 BioSample과 연계
  • 실행(Run) 생성

4. 서열 데이터 파일 업로드 #

Image

SRA 파일형식 #

Input formats #

  • SRA는 바이너리 파일로 구성된 파일을 선호 (BAM, SFF, PacBio HDF5 format 등)
  • FASTAQ와 같이 텍스트 형식의 파일도 등록 가능

Image

형식 설명
BAM(Binary Sequence Alignment/Map) SAM의 바이너리 버전
SFF(Standard Flowgram Format) 454 flowgrams를 암호화하기 위해 개발됨
PacBio HDF5 Pacific Biosystem에서 원본 데이터 저장을 위해 사용하는 파일 형식으로 Bas.h5와 bax.h5 파일 형식 모두 SRA 등록 가능
SOLiD native CSFASTA와 QUAL 파일
FASTQ Paired-end FASTQ, FASTA/QUAL pairs는 등록 가능
Vendor-specific FASTQ variants Illumina FASTQ, 454. FASTQ, Helicos FASTQ
기타 파일 형식 SRF(Sequence Read Format), qseq, seq, prb, int, Illumina scarf

Output formats #

형식 설명
SRA native format (VDB) 고정된 형식을 가지지 않지만 스키마를 포함하는 포터블 데이터베이스(VDB : vertical database) 파일
SAM ‘sam-dump’ 툴킷 유틸리티를 이용하여 SRA 데이터 파일을 SAM 형식으로 변경 가능
FASTQ 모든 SRA 데이터는 ‘fastq-dump’를 이용하여 FASTQ로 변환 가능
SFF(Standard Flowgram Format) SFF 형식으로 등록된 데이터셋만이 SFF 전환에 적합함
SOLiD native (CSFASTA/QUAL) 모든 SRA 데이터는 color space 데이터로 산출 가능
Illumina native formats 모든 SRA 데이터가 Illumina native format으로 변환가능하며, FASTQ와 기능적으로 유사

Reference #

Incoming Links #

Related Bioinformaticses #

Suggested Pages #

0.0.1_20210630_7_v33