基因组分类学数据库

基因組分類學數據庫
內容
獲取的數據類型	擬議的原核生物命名法、系統基因組學數據
相關信息
研究中心	澳大利亞生態基因組學中心、昆士蘭大學
作者（創始人）	菲爾·休根霍爾茨（Phil Hugenholtz）瑪麗亞·楚沃希納（Maria Chuvochina）克里斯蒂安·林克（Christian Rinke）
主要參考文獻（引用）	PMID 30148503
發布日期	2018年
訪問
網站	gtdb.ecogenomic.org
下載網址	gtdb.ecogenomic.org/downloads
網絡服務網址	gtdb.ecogenomic.org/tree
其它信息
許可	CC BY-SA 4.0
版本	09-RS220 (2024年4月24日)
管理政策	混合

方法論

用於構建系統發育的基因組來自美國國家生物技術信息中心（參考序列（英語：RefSeq）〔RefSeq〕和基因銀行〔Genbank〕），GTDB發布版本已索引到RefSeq版本，從版本76開始。重要的是，該數據集越來越多地包含從宏基因組和單細胞獲得的未培養微生物的草圖基因組，以確保微生物世界的基因組代表性得到提升。所有基因組在納入GTDB之前均使用CheckM進行獨立質量控制。^[9]

基因組首先經過基因調用（識別）（英語：GeneCalling）（gene calling）來提取基因。分類學基於以下樹狀圖：在WAG模型下，使用FastTree從120個單拷貝標記蛋白的串聯集合推斷出細菌的分類樹；在PMSF模型下，使用IQ-TREE從53個（自RS207以來；之前為122個）標記蛋白的串聯集合推斷出古菌的分類樹。此外，還使用了其他標記集（包括串聯核糖體蛋白和核糖體 RNA 基因）來交叉驗證樹狀圖的拓撲結構。^[9] 《相對進化分歧》（relative evolutionary divergence，RED）指標決定了所使用的分類等級，它是由PhyloRank程序從兩個主要樹中得出的。^[1]

物種劃分使用平均核苷酸同一性和比對分數，兩者均由「skani」計算。對於先前版本中存在的物種，GTDB會比較兩個基因組的質量和位置，並可能決定切換到新的《物種代表》（species representative）基因組。^[9]

分類法來自以下來源：

如果可用於基因組相似性的鄰域，則為先前的版本。
美國國家生物技術信息中心（NCBI）分類法最初用於通過tax2tree裝飾基因組樹。^[1]
基於16S rRNA的綠色基因（Greengenes）分類法用於補充分類法，特別是在樹中沒有培養代表的區域中。^[1]
原核生物標準命名列表（LPSN）被用作建立命名優先級的主要分類權威。^[1]

GTDB人員通過對照PhyloRank（系統等級）和樹枝的結果來整理來自上述來源的分類法。

分類單元名稱對應的樹節點的RED可能與其等級不匹配。該名稱可以移至其他節點，或（通過更改拉丁後綴）移至其他等級。^[1]
- 如果分歧過大，可能會在物種或屬的層面上進行分裂。這樣做會產生新的分類單元。^[3]
該分類單元可能最終是多系群的。管理員首先將分類單元限定在包含其模式材料的演化支內。然後為每個其他演化支創建一個新的分類單元。^[1]

對於每個新的分類單元，管理員都會嘗試在文獻中為其尋找一個建議名稱。如果沒有建議名稱，則會在原名稱後添加一個後綴，賦予該分類單元一個占位符名稱，例如Lactobacillus gasseri_A（加塞爾氏乳桿菌（英語：Lactobacillus gasseri）_A）。「Z」之後是「AA」。^[1]

Remove ads

數據庫的內容

每個版本包含：^[10]

分類表包含所有基因組組合在門到種分類中的分配情況。（每個域一個。）
包含每個基因組組裝元數據的文件，包括來自

NCBI的原始分類、原始菌株標識符、GTDB分類、質量評估以及重要基因（tRNA和rRNA）的存在情況。（每個領域一個。）

物種樹Newick文件包含物種代表性基因組（每個物種1個），構建方式如上一節所述。（每個域1個。）
對於物種代表性基因組：
- 從這些基因組中鑑定出的標記基因的比對
- 包含每個物種的一個16S rRNA序列的文件
- 包含這些基因組中所有預測基因的氨基酸和核苷酸版本的tarball
- 包含所有這些基因組完整內容的tarball
對於所有通過質量檢查的基因組：
- 從這些基因組中鑑定出的標記基因的比對
- 包含從這些基因組中識別出的所有16S rRNA序列的文件
輔助文件；請參閱完整的FILE_DESCRIPTIONS.txt。

網頁界面會顯示一個基於分類法（而非整個Newick文件）的樹狀結構，直至基因組組裝層級。每個基因組組裝都有一個頁面，詳細說明其元數據以及在每次GTDB版本中其分類的歷史記錄。此外，它還具備搜索功能。

Remove ads

對公認分類法的影響

GTDB「現已成為原核生物分類學的重要資源」。其物種樹及其方法論要素均被分類學家用來改進《原核生物法規》（Prokaryotic Code）下現行公認的分類法。例如，分類學家可以在自己的系統發育樹之上引用GTDB樹，以進一步支持其分類學提案。^[11]

甚至還有更雄心勃勃的提議，要將數據庫的大部分內容導入公認的分類法。2022年，《國際系統與進化微生物學雜誌》（IJSEM）上由第三方作者撰寫的一篇文章提出，應該根據毫無意義的拉丁音節為超過6.5萬個GTDB分類單元命名，^[12]儘管這些名字都沒有進入LPSN。 GTDB團隊在2023年發表的一篇文章中提出將223個高階分類單元導入《原核生物法規》系統，將 49 個高階分類單元導入《序列法規》（SeqCode）系統。^[13] 《原核生物法規》中公布的許多名稱已經得到驗證。^[14] （《序列法規》要求註冊名稱才能有效發布，這也已經完成。）

基因組分類學數據庫

方法論

數據庫的內容

對公認分類法的影響

參閱

參考文獻

延伸閱讀

外部連結

Wikiwand - on