FASTQ格式
来自维基百科,自由的百科全书
FASTQ格式是一種儲存生物序列(通常為核酸序列)及其定序品質得分資訊的文字格式。序列與品質得分皆由單個ASCII字元表示。
該格式最初由維爾康姆基金會桑格研究所開發,旨在將FASTA格式序列及其品質資料整合在一起。而目前,FASTQ格式已經成為了儲存高通量定序結果的事實標準。[1]
格式
FASTQ檔案中,一個序列通常由四行組成:
- 第一行以@開頭,之後為序列的識別碼以及描述資訊(與FASTA格式的描述行類似)
- 第二行為序列資訊
- 第三行以+開頭,之後可以再次加上序列的標識及描述資訊(可選)
- 第四行為品質得分資訊,與第二行的序列相對應,長度必須與第二行相同
以下為一個包含單個序列的FASTQ檔案範例:
@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
其中!為最低品質、~則為最高品質。以下字元從左到右代表從低到高的品質得分的:
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~
字元與對應的ASCII碼如下:
最初桑格研究所的FASTQ格式允許序列與品質資訊分成多行儲存。但一般不推薦採用這種方式,因為第一、第三行開頭的@與+符號同樣也可能出現在品質資訊中,可能會造成資訊提取的困難。
參見
參考文獻
Wikiwand - on
Seamless Wikipedia browsing. On steroids.