交叉驗證

交叉验证，有時亦稱循環估計^[1] ^[2] ^[3]，是一種統計學上將数据樣本切割成較小子集的實用方法。於是可以先在一個子集上做分析，而其它子集則用來做後續對此分析的確認及驗證。一開始的子集被稱為訓練集。而其它的子集則被稱為驗證集或測試集。交叉验证的目的，是用未用来给模型作训练的新数据，测试模型的性能，以便減少诸如过拟合和选择偏差等問題，并给出模型如何在一个独立的数据集上通用化（即，一个未知的数据集，如实际问题中的数据）。

交叉驗證的理論是由Seymour Geisser（英语：Seymour Geisser）所開始的。它對於防範根据数据建议的测试假设是非常重要的，特別是當後續的樣本是危險、成本過高或科学上不适合时去搜集的。

[1]

[2]

[3]