交叉驗證
維基百科,自由的 encyclopedia
交叉驗證,有時亦稱循環估計[1] [2] [3], 是一種統計學上將數據樣本切割成較小子集的實用方法。於是可以先在一個子集上做分析,而其它子集則用來做後續對此分析的確認及驗證。一開始的子集被稱為訓練集。而其它的子集則被稱為驗證集或測試集。交叉驗證的目的,是用未用來給模型作訓練的新數據,測試模型的性能,以便減少諸如過擬合和選擇偏差等問題,並給出模型如何在一個獨立的數據集上通用化(即,一個未知的數據集,如實際問題中的數據)。
此條目可參照英語維基百科相應條目來擴充。 (2020年3月6日) |
交叉驗證的理論是由Seymour Geisser(英語:Seymour Geisser)所開始的。它對於防範根據數據建議的測試假設是非常重要的,特別是當後續的樣本是危險、成本過高或科學上不適合時去搜集的。