化学信息学

历史

术语化学资讯学（Cheminformatics）是1998年被F.K. 布朗^[1]^[2]定义的：

化学资讯学是这些资讯资源的混合，将数据转化为资讯和资讯转化为知识，以便在药物导向识别和优化领域更快地做出更好的决策。

英文中，Cheminformatics和Chemoinformatics两种拼写均被使用，而使用更多的则是较短的变体——Cheminformatics^[3]。最近成立的《化学资讯学学报（英语：Journal of Cheminformatics）》是前者的强力推动。

基础

化学资讯学将化学，电脑科学和资讯科学的科学工作领域结合在化学空间（英语：Chemical space）中的拓扑（英语：Topology_(chemistry)），化学图论，资讯检索和数据挖掘领域^[4]^[5]^[6]^[7]。化学资讯学也可以应用于各种行业，如纸张和纸浆，染料和相关行业的数据分析。

应用

存储和检索

化学资讯学的主要应用是存储，索引和搜索与化合物有关的资讯。这种存储资讯的有效搜索包括电脑科学中作为数据挖掘，资讯检索，资讯抽取和机器学习的主题。相关研究课题包括：

非结构化数据（英语：Unstructured data）
- 资讯检索
- 资讯抽取
结构化数据挖掘（英语：Structure mining）和挖掘结构化数据
- 数据库挖掘（英语：Structure mining）
- 图形挖掘（英语：Structure mining）
- 分子挖掘
- 序列模式挖掘（英语：Sequential pattern mining）
- 树挖掘（英语：Structure mining）
数字图书馆

文件格式

化学结构的电脑表示使用专门的格式，例如基于XML的化学标记语言或简化分子线性输入规范（SMILES）。这些表征通常用于存储在大型化学数据库中。虽然一些格式适用于2或3维的视觉表示，但其他格式更适合于研究物理相互作用，建模和对接研究。

虚拟化合物库（Virtual Libraries）

化学数据可以涉及真实或虚拟分子。可以以各种方式产生化合物的虚拟化合物库以探索化学空间，并假设具有所需性质的全新的化合物。

最近使用片段优化生长（fragment optimized growth）算法生成化合物类（药物，天然产物，多样性合成产品）的虚拟化合物库^[8] 。这是通过使用化学资讯工具来训练马尔可夫链在真实化合物类别上的转变概率，然后使用马尔可夫链产生类似于训练数据库的全新化合物。

虚拟筛选（Virtual screening）

与高通量筛选相比，虚拟筛选涉及通过各种方法在化合物库中进行计算筛选，例如蛋白质和蛋白质或多肽的对接，用于识别可能具有所需特性（例如针对特定靶标的生物活性）的分子。在某些情况下，组合化学用于化合物库的开发，以提高挖掘化学空间的效率。更常见的是，筛选多样化的小分子或天然产物库。

定量构效关系（QSAR）

这是定量结构-活性关系和定量结构性质关系值的计算，用于预测其结构中化合物的活性。在这种情况下，化学计量学也和它有很强的关系。化学专家系统也是相关的，因为它们代表化学知识的一部分，作为电脑模拟表示。有一个相对较新的匹配分子对分析（英语：Matched molecular pair analysis）或预测驱动的MMPA的概念，它与QSAR模型相结合，以便识别活动悬崖（Activity cliffs）^[9]。化学悬崖通常被定义为结构相似且对同一靶点都具有活性但药效差异较大的化合物或化合物组。

参阅

历史

基础

应用

存储和检索

文件格式

虚拟化合物库（Virtual Libraries）

虚拟筛选（Virtual screening）

定量构效关系（QSAR）

参阅

参考资料

外部链接

Wikiwand - on