FASTQ格式

来自维基百科,自由的百科全书

FASTQ格式是一種儲存生物序列(通常為核酸序列)及其定序品質得分資訊的文字格式。序列與品質得分皆由單個ASCII字元表示。

該格式最初由維爾康姆基金會桑格研究所開發,旨在將FASTA格式序列及其品質資料整合在一起。而目前,FASTQ格式已經成為了儲存高通量定序結果的事實標準。[1]

格式

FASTQ檔案中,一個序列通常由四行組成:

  • 第一行以@開頭,之後為序列的識別碼以及描述資訊(與FASTA格式的描述行類似)
  • 第二行為序列資訊
  • 第三行以+開頭,之後可以再次加上序列的標識及描述資訊(可選)
  • 第四行為品質得分資訊,與第二行的序列相對應,長度必須與第二行相同

以下為一個包含單個序列的FASTQ檔案範例:

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

其中!為最低品質、~則為最高品質。以下字元從左到右代表從低到高的品質得分的:

 !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~

字元與對應的ASCII碼如下:

更多資訊 十進制, 圖形 ...
關閉
更多資訊 十進制, 圖形 ...
關閉
更多資訊 十進制, 圖形 ...
關閉
更多資訊 十進制, 圖形 ...
關閉
更多資訊 十進制, 圖形 ...
關閉
更多資訊 十進制, 圖形 ...
關閉


最初桑格研究所的FASTQ格式允許序列與品質資訊分成多行儲存。但一般不推薦採用這種方式,因為第一、第三行開頭的@與+符號同樣也可能出現在品質資訊中,可能會造成資訊提取的困難。

參見

參考文獻

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.