热门问题
时间线
聊天
视角
基因组分类学数据库
澳大利亚在线数据库,原核生物的系统基因组命名法 来自维基百科,自由的百科全书
Remove ads
基因组分类学数据库(英语:Genome Taxonomy Database,缩写:GTDB)是一个在线数据库,它遵循基于一组保守的单拷贝蛋白质的系统基因组学方法,保存有关原核生物拟议命名法的信息。除了解决并系群之外,该方法还通过算法重新分配分类等级,并在两种情况下更新名称。[1] 2020年添加了古菌信息,[2] 以及基于平均核苷酸同一性(average nucleotide identity)的物种分类。[3] 每次更新都包含新的基因组及其分类的自动和手动管理。[4]
一个名为GTDB-Tk的开源工具可用于将草图基因组分类到GTDB层次结构中。[5] GTDB系统通过GTDB-Tk已用于对人类肠道微生物组和其它宏基因组来源中尚未命名的细菌进行分类。[6][7]
GTDB于2019年被纳入《伯吉氏古菌和细菌系统学手册》,作为其系统基因组学资源。[8]
Remove ads
方法论
用于构建系统发育的基因组来自美国国家生物技术信息中心(参考序列〔RefSeq〕和基因银行〔Genbank〕),GTDB发布版本已索引到RefSeq版本,从版本76开始。重要的是,该数据集越来越多地包含从宏基因组和单细胞获得的未培养微生物的草图基因组,以确保微生物世界的基因组代表性得到提升。所有基因组在纳入GTDB之前均使用CheckM进行独立质量控制。[9]
基因组首先经过基因调用(gene calling)来提取基因。分类学基于以下树状图:在WAG模型下,使用FastTree从120个单拷贝标记蛋白的串联集合推断出细菌的分类树;在PMSF模型下,使用IQ-TREE从53个(自RS207以来;之前为122个)标记蛋白的串联集合推断出古菌的分类树。此外,还使用了其他标记集(包括串联核糖体蛋白和核糖体 RNA 基因)来交叉验证树状图的拓扑结构。[9] 《相对进化分歧》(relative evolutionary divergence,RED)指标决定了所使用的分类等级,它是由PhyloRank程序从两个主要树中得出的。[1]
物种划分使用平均核苷酸同一性和比对分数,两者均由“skani”计算。对于先前版本中存在的物种,GTDB会比较两个基因组的质量和位置,并可能决定切换到新的《物种代表》(species representative)基因组。[9]
分类法来自以下来源:
- 如果可用于基因组相似性的邻域,则为先前的版本。
- 美国国家生物技术信息中心(NCBI)分类法最初用于通过tax2tree装饰基因组树。[1]
- 基于16S rRNA的绿色基因(Greengenes)分类法用于补充分类法,特别是在树中没有培养代表的区域中。[1]
- 原核生物标准命名列表(LPSN)被用作建立命名优先级的主要分类权威。[1]
GTDB人员通过对照PhyloRank(系统等级)和树枝的结果来整理来自上述来源的分类法。
- 分类单元名称对应的树节点的RED可能与其等级不匹配。该名称可以移至其他节点,或(通过更改拉丁后缀)移至其他等级。[1]
- 如果分歧过大,可能会在物种或属的层面上进行分裂。这样做会产生新的分类单元。[3]
- 该分类单元可能最终是多系群的。管理员首先将分类单元限定在包含其模式材料的演化支内。然后为每个其他演化支创建一个新的分类单元。[1]
对于每个新的分类单元,管理员都会尝试在文献中为其寻找一个建议名称。如果没有建议名称,则会在原名称后添加一个后缀,赋予该分类单元一个占位符名称,例如Lactobacillus gasseri_A(加塞尔氏乳杆菌_A)。“Z”之后是“AA”。[1]
Remove ads
数据库的内容
每个版本包含:[10]
- 分类表包含所有基因组组合在门到种分类中的分配情况。(每个域一个。)
- 包含每个基因组组装元数据的文件,包括来自
NCBI的原始分类、原始菌株标识符、GTDB分类、质量评估以及重要基因(tRNA和rRNA)的存在情况。(每个领域一个。)
- 物种树Newick文件包含物种代表性基因组(每个物种1个),构建方式如上一节所述。(每个域1个。)
- 对于物种代表性基因组:
- 从这些基因组中鉴定出的标记基因的比对
- 包含每个物种的一个16S rRNA序列的文件
- 包含这些基因组中所有预测基因的氨基酸和核苷酸版本的tarball
- 包含所有这些基因组完整内容的tarball
- 对于所有通过质量检查的基因组:
- 从这些基因组中鉴定出的标记基因的比对
- 包含从这些基因组中识别出的所有16S rRNA序列的文件
- 辅助文件;请参阅完整的FILE_DESCRIPTIONS.txt。
网页界面会显示一个基于分类法(而非整个Newick文件)的树状结构,直至基因组组装层级。每个基因组组装都有一个页面,详细说明其元数据以及在每次GTDB版本中其分类的历史记录。此外,它还具备搜索功能。
Remove ads
对公认分类法的影响
GTDB“现已成为原核生物分类学的重要资源”。其物种树及其方法论要素均被分类学家用来改进《原核生物法规》(Prokaryotic Code)下现行公认的分类法。例如,分类学家可以在自己的系统发育树之上引用GTDB树,以进一步支持其分类学提案。[11]
甚至还有更雄心勃勃的提议,要将数据库的大部分内容导入公认的分类法。2022年,《国际系统与进化微生物学杂志》(IJSEM)上由第三方作者撰写的一篇文章提出,应该根据毫无意义的拉丁音节为超过6.5万个GTDB分类单元命名,[12]尽管这些名字都没有进入LPSN。 GTDB团队在2023年发表的一篇文章中提出将223个高阶分类单元导入《原核生物法规》系统,将 49 个高阶分类单元导入《序列法规》(SeqCode)系统。[13] 《原核生物法规》中公布的许多名称已经得到验证。[14] (《序列法规》 要求注册名称才能有效发布,这也已经完成。)
参阅
- 国际系统发生命名法规(系统法规,PhyloCode)
- 美国国家生物技术信息中心
- SILVA核糖体核糖核酸数据库
- 原核生物标准命名列表
参考文献
延伸阅读
外部链接
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads