数据挖掘
维基百科,自由的 encyclopedia
数据挖掘(英语:Data mining)是一个跨学科的电脑科学分支[1][2][3] 。它是用人工智慧、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程[1]。
数据挖掘过程的总体目标是从一个数据集中提取资讯,并将其转换成可理解的结构,以进一步使用[1]。除了原始分析步骤,它还涉及到数据库和数据管理方面、数据预处理(英语:data pre-processing)、模型与推断方面考量、兴趣度度量、复杂度的考虑,以及发现结构、可视化及在线更新等后处理[1]。数据挖掘是“数据库知识发现”(Knowledge-Discovery in Databases, KDD)的分析步骤[4] ,本质上属于机器学习的范畴。
类似词语“资料采矿”、“数据捕鱼”和“数据探测”指用数据挖掘方法来采样(可能)过小以致无法可靠地统计推断出所发现任何模式的有效性的更大总体数据集的部分。不过这些方法可以建立新的假设来检验更大数据总体。