数据挖掘

数据挖掘（英語：Data mining）是一个跨学科的计算机科学分支^[1]^[2]^[3]。它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程^[1]。

数据挖掘过程的总体目标是从一个数据集中提取信息，并将其转换成可理解的结构，以进一步使用^[1]。除了原始分析步骤，它还涉及到数据库和数据管理方面、数据预处理（英语：data pre-processing）、模型与推断方面考量、兴趣度度量、复杂度的考虑，以及发现结构、可视化及在线更新等后处理^[1]。数据挖掘是“資料庫知識發現”（Knowledge-Discovery in Databases, KDD）的分析步骤^[4]，本质上属于机器学习的范畴。

类似词语“資料採礦”、“数据捕鱼”和“数据探测”指用数据挖掘方法来采样（可能）过小以致无法可靠地统计推断出所发现任何模式的有效性的更大总体数据集的部分。不过这些方法可以建立新的假设来检验更大数据总体。

[1]

[2]

[3]

[4]

数据挖掘

歷史

定義

本质

过程

预处理

数据挖掘

结果验证

隐私问题及伦理[9]

方法

例子

数据捕捞

参见

參考文獻

延伸阅读

外部連結

Wikiwand - on