資料探勘
維基百科,自由的 encyclopedia
資料探勘(英語:Data mining)是一個跨學科的電腦科學分支[1][2][3] 。它是用人工智慧、機器學習、統計學和資料庫的交叉方法在相對較大型的資料集中發現模式的計算過程[1]。
資料探勘過程的總體目標是從一個資料集中提取資訊,並將其轉換成可理解的結構,以進一步使用[1]。除了原始分析步驟,它還涉及到資料庫和資料管理方面、資料預處理(英語:data pre-processing)、模型與推斷方面考量、興趣度度量、複雜度的考慮,以及發現結構、視覺化及線上更新等後處理[1]。資料探勘是「資料庫知識發現」(Knowledge-Discovery in Databases, KDD)的分析步驟[4] ,本質上屬於機器學習的範疇。
類似詞語「資料採礦」、「資料捕魚」和「資料探測」指用資料探勘方法來採樣(可能)過小以致無法可靠地統計推斷出所發現任何模式的有效性的更大總體資料集的部分。不過這些方法可以建立新的假設來檢驗更大數據總體。