Skip to content

FASTA #
Find similar titles

Structured data

Category
Analysis

FASTA #

FASTA format은 생물 정보학 및 생화학에서 nucleotide sequence 또는 amino acid (protein) sequence를 나타내는 text-based format으로 nucleotide 또는 amino acids는 단일 문자 코드 (one-letter-code)를 사용하여 표현된다. 또한 sequence 내용 전에 ID와 description을 추가할 수 있으며, 이러한 FASTA 형식은 구성이 단순하여 text-processing tool과 R programming language, Python, Ruby, Perl과 같은 script language들을 사용하여 분석을 진행할 시 sequence들을 쉽게 다룰 수 있다.

Overview #

Sequence들은 일련의 행으로 표시가 되며, 각 줄은 120자를 넘지 않는 기준이지만 보통 80자를 초과하지 않는 것을 권장한다. FASTA file의 첫 번째 줄은 꺾쇠 (">")기호로 시작하고 그 뒤에 ID와 description을 입력한다.
아래의 예제 파일을 참고해보면 각각은 하나의 sequence만을 담은 FASTA 파일이지만, 이들을 함께 취하게 되면 여러 개의 sequence들을 담은 Multi-FASTA 파일이 되며, 꺾쇠 (">")기호로 여러 개의 sequence들이 구분된다. 또한 Gene bank의 sequence들은 두 개 이상의 ID 체계가 부여되는 경우가 있는데, 그 경우에는 바 (bar, "|")로 구분하여 보여준다.

>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximu]
LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV
EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG
LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL
GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX
IENY

>gi|186681228|ref|YP_001864424.1| phycoerythrobilin:ferredoxin oxidoreductase
MNSERSDVTLYQPFLDYAIAYMRSRLDLEPYPIPTGFESNSAVVGKGKNQEEVVTTSYAFQTAKLRQIRA
AHVQGGNSLQVLNFVIFPHLNYDLPFFGADLVTLPGGHLIALDMQPLFRDDSAYQAKYTEPILPIFHAHQ
QHLSWGGDFPEEAQPFFSPAFLWTRPQETAVVETQVFAAFKDYLKAYLDFVEQAEAVTDSQNLVAIKQAQ
LRYLRYRAEKDPARGMFKRFYGAEWTEEYIHGFLFDLERKLTVVK

>gi|2695690|gb|AF036760.1| Rattus norvegicus BRCA1 mRNA, complete cds
CGCTGGTGCAACTCGAAGACCTATCTCCTTCCCGGGGGGGCTTCTCCGGCATTTAGGCCTCGGCGTTTGG
AAGTACGGAGGTTTTTCTCGGAAGAAAGTTCACTGGAAGTGGAAGAAATGGATTTATCTGCTGTTCGAAT

NCBI identifiers #

NCBI (National Center for Biotechnology Information)는 database에서 얻은 sequence에 해당 database record가 참조되어 레이블이 지정될 수 있도록 꺽쇠 (">")다음에 오는 header line 부분에 sequence ID에 사용되는 unique identifier에 대한 표준을 정의했다. sequence identifiers에 대한 NCBI FASTA 정의 형식은 다음과 같다.

Type Format(s) Example(s)
local (i.e. no database reference) lcl integer
lcl
GenInfo backbone seqid bbs integer
GenInfo backbone moltype bbm integer
GenInfo import ID gim integer
GenBank gb accession
EMBL emb accession
PIR pir accession
SWISS-PROT sp accession
patent pat country
pre-grant patent pgp country
RefSeq ref accession
general database reference
(a reference to a database that's not in this list)
gnl database
GenInfo integrated database gi integer
DDBJ dbj accession
PRF prf accession
PDB pdb entry
third-party GenBank tpg accession
third-party EMBL tpe accession
third-party DDBJ tpd accession
TrEMBL tr accession

Sequence representation #

Sequence는 다음을 제외하고 표준 IUB / IUPAC amino acid 및 nucleic acid로 표현된다.

  • 소문자들을 대문자로 mapping.
  • 단일 하이픈 (-)또는 대시 (/)를 사용하여 불확실한 길이의 gap을 나타냄.
  • Amino acid seqeucne 경우, U와 * 문자를 사용할 수 있음.
  • 알 수 없는 핵산 잔기의 경우 N 또는 알 수 없는 아미노산 잔기의 경우 X.
Nucleic Acid Code Meaning
A Adenosine
C Cytosine
G Guanine
T Thymine
U Uracil
R G or A (puRine)
Y C, T or U (pYrimidines)
K G, T or U (bases which are Ketones)
M A or C (bases with aMino groups)
S C or G (Strong interaction)
W A, T or U (Weak interation)
B C, G, T or U {not A (B comes after A)}
D A, G, T or U {not C (D comes after C)}
H A, C, T or U {not G (H comes after G)}
V A, C or G {neither T nor U (V comes after U)}
N A, C, G, T, U (Nucleic acid)
- gap of indeterminate length

지원되는 아미노산 코드 (22 개의 아미노산 및 3 개의 특수 코드)는 다음과 같다.

Nucleic Acid Code Meaning
A Alanine
B Aspartic acid (D) or Asparagine (N)
C Cysteine
D Aspartic acid
E Glutamic acid
F Phenylalanine
G Glycine
H Histidine
I Isoleucine
J Leucine (L) or Isoleucine (I)
K Lysine
L Leucine
M Methionine / Start codon
N Asparagine
O Pyrrolysine
P Proline
Q Glutamine
R Arginine
S Serine
T Threonine
U Selenocysteine
V Valine
W Tryptophan
Y Tyrosine
Z Glutamic acid (E) or Glutamine?(Q)
X any
* translation stop
- gap of indeterminate length

Filename extension #

FASTA 형식의 sequence들을 포함하는 텍스트 파일의 표준 확장자명은 없으나, 각각의 확장자명과 의미하는 바는 다음과 같다.

Extension Meaning Notes
fasta generic fasta 일반적인 fasta 파일, 다른 FASTA 파일 확장자는 아래 나열되어 있음
fna fasta nucleic acid 핵산을 명시하기 위해 일반적으로 사용되는 확장자
ffn FASTA nucleotide of gene regions Genome의 coding 영역을 포함하는 확장자
faa fasta amino acid Amino acid sequence를 포함하는 확장자, Multi-protein fasta 파일은 더 구체적인 확장자인 mpfa를 갖음
frn FASTA non-coding RNA Genome에서 non-coding RNA 영역을 포함하는 확장자 (e.g. tRNA, rRNA)

Reference #

  1. http://www.bioinformatics.nl/tools/crab_fasta.html
  2. https://zhanglab.ccmb.med.umich.edu/FASTA/
  3. https://en.wikipedia.org/wiki/FASTA_format
  4. https://earray.chem.agilent.com/earray/helppages/index.htm#fasta_format_files.htm

Incoming Links #

Related Data Sciences #

Related Articles #

Related Bioinformaticses #

Suggested Pages #

0.0.1_20140628_0