热门问题

时间线

聊天

视角

FASTQ格式

来自维基百科，自由的百科全书

Remove ads

FASTQ格式是一種儲存生物序列（通常為核酸序列）及其定序質素得分資訊的文字格式。序列與質素得分皆由單個ASCII字元表示。

該格式最初由維爾康姆基金會桑格研究所開發，旨在將FASTA格式序列及其質素數據整合在一起。而目前，FASTQ格式已經成為了儲存高通量定序結果的事實標準。^[1]

格式

FASTQ檔案中，一個序列通常由四行組成：

第一行以@開頭，之後為序列的識別碼以及描述資訊（與FASTA格式的描述行類似）
第二行為序列資訊
第三行以+開頭，之後可以再次加上序列的標識及描述資訊（可選）
第四行為質素得分資訊，與第二行的序列相對應，長度必須與第二行相同

以下為一個包含單個序列的FASTQ檔案範例：

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

其中!為最低質素、~則為最高質素。以下字元從左到右代表從低到高的質素得分的：

 !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~

字元與對應的ASCII碼如下：

更多資訊 十進制, 圖形 ...

更多資訊 十進制, 圖形 ...

更多資訊 十進制, 圖形 ...

更多資訊 十進制, 圖形 ...

更多資訊 十進制, 圖形 ...

更多資訊 十進制, 圖形 ...

最初桑格研究所的FASTQ格式允許序列與質素資訊分成多行儲存。但一般不推薦採用這種方式，因為第一、第三行開頭的@與+符號同樣也可能出現在質素資訊中，可能會造成資訊提取的困難。

Remove ads

參見

FASTA格式

參考文獻

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads

Remove ads