热门问题
时间线
聊天
视角
FASTQ格式
来自维基百科,自由的百科全书
Remove ads
FASTQ格式是一種保存生物序列(通常為核酸序列)及其測序質量得分信息的文本格式。序列與質量得分皆由單個ASCII字符表示。
該格式最初由維爾康姆基金會桑格研究所開發,旨在將FASTA格式序列及其質量數據整合在一起。而目前,FASTQ格式已經成為了保存高通量測序結果的事實標準。[1]
格式
FASTQ文件中,一個序列通常由四行組成:
- 第一行以@開頭,之後為序列的標識符以及描述信息(與FASTA格式的描述行類似)
- 第二行為序列信息
- 第三行以+開頭,之後可以再次加上序列的標識及描述信息(可選)
- 第四行為質量得分信息,與第二行的序列相對應,長度必須與第二行相同
以下為一個包含單個序列的FASTQ文件示例:
@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
其中!為最低質量、~則為最高質量。以下字符從左到右代表從低到高的質量得分的:
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~
字符與對應的ASCII碼如下:
最初桑格研究所的FASTQ格式允許序列與質量信息分成多行保存。但一般不推薦採用這種方式,因為第一、第三行開頭的@與+符號同樣也可能出現在質量信息中,可能會造成信息提取的困難。
Remove ads
參見
參考文獻
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads