热门问题
时间线
聊天
视角
基因組分類學數據庫
澳大利亚在线数据库,原核生物的系统基因组命名法 来自维基百科,自由的百科全书
Remove ads
基因組分類學數據庫(英語:Genome Taxonomy Database,縮寫:GTDB)是一個在線數據庫,它遵循基於一組保守的單拷貝蛋白質的系統基因組學方法,保存有關原核生物擬議命名法的信息。除了解決並系群之外,該方法還通過算法重新分配分類等級,並在兩種情況下更新名稱。[1] 2020年添加了古菌信息,[2] 以及基於平均核苷酸同一性(average nucleotide identity)的物種分類。[3] 每次更新都包含新的基因組及其分類的自動和手動管理。[4]
一個名為GTDB-Tk的開源工具可用於將草圖基因組分類到GTDB層次結構中。[5] GTDB系統通過GTDB-Tk已用於對人類腸道微生物組和其它宏基因組來源中尚未命名的細菌進行分類。[6][7]
GTDB於2019年被納入《伯吉氏古菌和細菌系統學手冊》,作為其系統基因組學資源。[8]
Remove ads
方法論
用於構建系統發育的基因組來自美國國家生物技術信息中心(參考序列〔RefSeq〕和基因銀行〔Genbank〕),GTDB發布版本已索引到RefSeq版本,從版本76開始。重要的是,該數據集越來越多地包含從宏基因組和單細胞獲得的未培養微生物的草圖基因組,以確保微生物世界的基因組代表性得到提升。所有基因組在納入GTDB之前均使用CheckM進行獨立質量控制。[9]
基因組首先經過基因調用(gene calling)來提取基因。分類學基於以下樹狀圖:在WAG模型下,使用FastTree從120個單拷貝標記蛋白的串聯集合推斷出細菌的分類樹;在PMSF模型下,使用IQ-TREE從53個(自RS207以來;之前為122個)標記蛋白的串聯集合推斷出古菌的分類樹。此外,還使用了其他標記集(包括串聯核糖體蛋白和核糖體 RNA 基因)來交叉驗證樹狀圖的拓撲結構。[9] 《相對進化分歧》(relative evolutionary divergence,RED)指標決定了所使用的分類等級,它是由PhyloRank程序從兩個主要樹中得出的。[1]
物種劃分使用平均核苷酸同一性和比對分數,兩者均由「skani」計算。對於先前版本中存在的物種,GTDB會比較兩個基因組的質量和位置,並可能決定切換到新的《物種代表》(species representative)基因組。[9]
分類法來自以下來源:
- 如果可用於基因組相似性的鄰域,則為先前的版本。
- 美國國家生物技術信息中心(NCBI)分類法最初用於通過tax2tree裝飾基因組樹。[1]
- 基於16S rRNA的綠色基因(Greengenes)分類法用於補充分類法,特別是在樹中沒有培養代表的區域中。[1]
- 原核生物標準命名列表(LPSN)被用作建立命名優先級的主要分類權威。[1]
GTDB人員通過對照PhyloRank(系統等級)和樹枝的結果來整理來自上述來源的分類法。
- 分類單元名稱對應的樹節點的RED可能與其等級不匹配。該名稱可以移至其他節點,或(通過更改拉丁後綴)移至其他等級。[1]
- 如果分歧過大,可能會在物種或屬的層面上進行分裂。這樣做會產生新的分類單元。[3]
- 該分類單元可能最終是多系群的。管理員首先將分類單元限定在包含其模式材料的演化支內。然後為每個其他演化支創建一個新的分類單元。[1]
對於每個新的分類單元,管理員都會嘗試在文獻中為其尋找一個建議名稱。如果沒有建議名稱,則會在原名稱後添加一個後綴,賦予該分類單元一個占位符名稱,例如Lactobacillus gasseri_A(加塞爾氏乳桿菌_A)。「Z」之後是「AA」。[1]
Remove ads
數據庫的內容
每個版本包含:[10]
- 分類表包含所有基因組組合在門到種分類中的分配情況。(每個域一個。)
- 包含每個基因組組裝元數據的文件,包括來自
NCBI的原始分類、原始菌株標識符、GTDB分類、質量評估以及重要基因(tRNA和rRNA)的存在情況。(每個領域一個。)
- 物種樹Newick文件包含物種代表性基因組(每個物種1個),構建方式如上一節所述。(每個域1個。)
- 對於物種代表性基因組:
- 從這些基因組中鑑定出的標記基因的比對
- 包含每個物種的一個16S rRNA序列的文件
- 包含這些基因組中所有預測基因的氨基酸和核苷酸版本的tarball
- 包含所有這些基因組完整內容的tarball
- 對於所有通過質量檢查的基因組:
- 從這些基因組中鑑定出的標記基因的比對
- 包含從這些基因組中識別出的所有16S rRNA序列的文件
- 輔助文件;請參閱完整的FILE_DESCRIPTIONS.txt。
網頁界面會顯示一個基於分類法(而非整個Newick文件)的樹狀結構,直至基因組組裝層級。每個基因組組裝都有一個頁面,詳細說明其元數據以及在每次GTDB版本中其分類的歷史記錄。此外,它還具備搜索功能。
Remove ads
對公認分類法的影響
GTDB「現已成為原核生物分類學的重要資源」。其物種樹及其方法論要素均被分類學家用來改進《原核生物法規》(Prokaryotic Code)下現行公認的分類法。例如,分類學家可以在自己的系統發育樹之上引用GTDB樹,以進一步支持其分類學提案。[11]
甚至還有更雄心勃勃的提議,要將數據庫的大部分內容導入公認的分類法。2022年,《國際系統與進化微生物學雜誌》(IJSEM)上由第三方作者撰寫的一篇文章提出,應該根據毫無意義的拉丁音節為超過6.5萬個GTDB分類單元命名,[12]儘管這些名字都沒有進入LPSN。 GTDB團隊在2023年發表的一篇文章中提出將223個高階分類單元導入《原核生物法規》系統,將 49 個高階分類單元導入《序列法規》(SeqCode)系統。[13] 《原核生物法規》中公布的許多名稱已經得到驗證。[14] (《序列法規》 要求註冊名稱才能有效發布,這也已經完成。)
參閱
- 國際系統發生命名法規(系統法規,PhyloCode)
- 美國國家生物技術信息中心
- SILVA核糖體核糖核酸數據庫
- 原核生物標準命名列表
參考文獻
延伸閱讀
外部連結
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads