Sequence Read Archive
#
Find similar titles
- (rev. 6)
- Duskan
Structured data
- Category
- Database
Table of Contents
Sequence Read Archive(SRA) #
- Roche 454 GS System, Illumine Genome Analyzer, SOLiD System 등의 NGS 기술을 통해 얻을 수 있는 서열 데이터를 저장하는 NCBI 데이터베이스
- SRA는 고성능 시퀀싱 데이터에 대한 미국 국립 보건원(NIH)의 1차 아카이브로, NCBI와 EBI(European Bioinformatics Institute), DDBJ(DNA Database of Japan) 간 국제적 제휴 아카이브의 일부분으로 세 기관에서 제출 받은 데이터는 서로 공유하고 있으며, 현재 100 terabyte 이상의 short read data 보유하고 있다
SRA 데이터 등록 절차 #
- SRA에 데이터를 등록하기 위해서는 NCBI 계정으로 로그인 필요하며, SRA 등록 시 전제조건으로 NCBI의 BioProject와 BioSample 데이터베이스에 프로젝트와 생물학적 샘플 등록이 필요하다
- BioProject : 시퀀싱 연구의 목적
- BioSample : 실험에 사용된 시퀀싱 되어진 생물학적 물질의 특성 기록
1. BioProject 생성 #
- 등록 포털 홈 페이지에서 “BioProject”로 이동 한 후, “New submission”을 클릭하여 새로 생성
- BioProject 등록 시 해당 프로젝트에 대한 accession(PRJNA#) 부여
- 프로젝트가 완전히 등록되지 않은 경우 임시 등록 ID(SUB#) 부여
- SRA 등록에서 등록된 프로젝트가 STUDY로 변경되면 SRA accession(SRP#) 부여
2. BioSample 생성 #
- 등록 포털 홈 페이지에서 “BioSample”로 이동 한 후, “New submission”을 클릭하여 새로 생성
- BioSample 등록 시 해당 프로젝트에 대한 accession(SAMN#) 부여
- 샘플이 완전히 등록되지 않은 경우 임시 등록 ID(SUB#) 부여
- SRA 등록에서 등록된 샘플이 SAMPLE로 변경되면 SRA accession(SRS#) 부여
3. SRA 메타데이터 등록 #
- SRA 메타데이터 입력 : 프로젝트, 샘플이나 실험, 파일명 등에 연결되는 정보
- SRA submission 생성 및 실험(Experiment)를 생성하고 BioProject와 BioSample과 연계
- 실행(Run) 생성
4. 서열 데이터 파일 업로드 #
SRA 파일형식 #
Input formats #
- SRA는 바이너리 파일로 구성된 파일을 선호 (BAM, SFF, PacBio HDF5 format 등)
- FASTAQ와 같이 텍스트 형식의 파일도 등록 가능
형식 | 설명 |
---|---|
BAM(Binary Sequence Alignment/Map) | SAM의 바이너리 버전 |
SFF(Standard Flowgram Format) | 454 flowgrams를 암호화하기 위해 개발됨 |
PacBio HDF5 | Pacific Biosystem에서 원본 데이터 저장을 위해 사용하는 파일 형식으로 Bas.h5와 bax.h5 파일 형식 모두 SRA 등록 가능 |
SOLiD native | CSFASTA와 QUAL 파일 |
FASTQ | Paired-end FASTQ, FASTA/QUAL pairs는 등록 가능 |
Vendor-specific FASTQ variants | Illumina FASTQ, 454. FASTQ, Helicos FASTQ |
기타 파일 형식 | SRF(Sequence Read Format), qseq, seq, prb, int, Illumina scarf |
Output formats #
형식 | 설명 |
---|---|
SRA native format (VDB) | 고정된 형식을 가지지 않지만 스키마를 포함하는 포터블 데이터베이스(VDB : vertical database) 파일 |
SAM | ‘sam-dump’ 툴킷 유틸리티를 이용하여 SRA 데이터 파일을 SAM 형식으로 변경 가능 |
FASTQ | 모든 SRA 데이터는 ‘fastq-dump’를 이용하여 FASTQ로 변환 가능 |
SFF(Standard Flowgram Format) | SFF 형식으로 등록된 데이터셋만이 SFF 전환에 적합함 |
SOLiD native (CSFASTA/QUAL) | 모든 SRA 데이터는 color space 데이터로 산출 가능 |
Illumina native formats | 모든 SRA 데이터가 Illumina native format으로 변환가능하며, FASTQ와 기능적으로 유사 |
Reference #
Incoming Links #
Related Bioinformaticses (Bioinformatics 0) #
Suggested Pages #
- 0.250 Hyungyong Kim
- 0.038 삭제요청
- 0.025 Jupyter
- 0.006 Policy
- 0.003 지침
- More suggestions...