FASTA格式

在生物信息學中，FASTA格式是一種用於記錄核酸序列或肽序列的文本格式，其中的核酸或氨基酸均以單個字母編碼呈現。該格式同時還允許在序列之前定義名稱和編寫注釋。這一格式最初由FASTA（英語：FASTA）軟件包定義，但現今已是生物信息學領域的一項標準。

FASTA簡明的格式降低了序列操縱和分析的難度，令序列可被文本處理工具和諸如Python、Ruby和Perl等腳本語言處理。

氨基酸編碼	含義
A	丙氨酸（Alanine）
B	天冬氨酸（Aspartic acid，D）或天冬酰胺（Asparagine，N）
C	半胱氨酸（Cysteine）
D	天冬氨酸（Aspartic acid）
E	穀氨酸（Glutamic acid）
F	苯丙氨酸（Phenylalanine）
G	甘氨酸（Glycine）
H	組氨酸（Histidine）
I	異亮氨酸（Isoleucine）
J	亮氨酸（Leucine，L）或異亮氨酸（Isoleucine，I）
K	賴氨酸（Lysine）
L	亮氨酸（Leucine）
M	甲硫氨酸（Methionine）
N	天冬酰胺（Asparagine）
O	吡咯賴氨酸（Pyrrolysine）
P	脯氨酸（Proline）
Q	穀氨酰胺（Glutamine）
R	精氨酸（Arginine）
S	絲氨酸（Serine）
T	蘇氨酸（Threonine）
U	硒半胱氨酸（Selenocysteine）
V	纈氨酸（Valine）
W	色氨酸（Tryptophan）
Y	酪氨酸（Tyrosine）
Z	穀氨酸（Glutamic acid，E）或穀氨酰胺（Glutamine，Q）
X	任意
*	翻譯終止
-	不定長度空白占位符

數據庫	格式
GenBank	`gb\|accession\|locus`
EMBL Data Library	`emb\|accession\|locus`
DDBJ, DNA Database of Japan	`dbj\|accession\|locus`
NBRF PIR	`pir\|\|entry`
Protein Research Foundation	`prf\|\|name`
SWISS-PROT	`sp\|accession\|entry name`
Brookhaven Protein Data Bank	`pdb\|entry\|chain`
Patents	`pat\|country\|number`
GenInfo Backbone Id	`bbs\|number`
General database identifier	`gnl\|database\|identifier`
NCBI Reference Sequence	`ref\|accession\|locus`
Local Sequence identifier	`lcl\|identifier`

擴展名	含義	備註
fasta (.fas)	普通FASTA	任意普通的FASTA文件。此類擴展名還有fa、seq、fsa。
fna	核酸FASTA	普遍用於表示核酸序列的FASTA文件。
ffn	核酸編碼區FASTA	包含基因組編碼區的FASTA文件。
faa	氨基酸FASTA	包含表示氨基酸序列的FASTA文件。含有多種蛋白質序列的FASTA文件還可使用更具體的mpfa擴展名。
frn	非編碼RNA FASTA	包含以DNA字母編碼表示的基因組非編碼RNA區（如tRNA、rRNA）的FASTA文件。

格式