交叉验证

评估和提高模型的预测性能

交叉验证是用于评估A的模型评估技术机器学习算法在对其尚未培训的新数据集进行预测方面的性能。这是通过划分数据集来完成并使用子集进行培训算法和剩余数据进行测试。因为交叉验证不使用所有数据来构建模型，所以它是一种常用的方法，可以防止在训练期间过度拟合。

每一轮交叉验证都涉及将原始数据集随机分区为a培训集A.测试集。然后使用训练集来训练a监督学习算法和测试集用于评估其性能。此过程重复几次，并且平均交叉验证误差用作性能指示符。

常见的交叉验证技术包括：

K-Fold.：将数据分区为k随机选择的子集（或折叠）大小的大小。一个子集用于验证使用剩余子集训练的模型。该过程重复k倍，使得每个子集完全用于验证一次。
坚持：将数据分为分为指定比率的两个子集（或折叠）以进行培训和验证。
忽略：使用k折叠方法分区数据，其中k等于数据中的观察总数。也称为休假交叉验证。
重复随机子采样：施行蒙特卡洛在所有运行中重复随机分区数据和聚合结果。
分层：分区数据，使得训练和测试集两种训练和测试集在响应或目标中具有大致相同的类比例。
重组：没有分区数据;使用培训数据进行验证。通常会产生过度乐观的性能估计，如果有足够的数据，必须避免。

由于培训和验证完成了多次，交叉验证可以是计算密集型操作。由于每个分区集是独立的，因此可以并行执行此分析以加速过程。

有关使用交叉验证的更多信息机器学习问题，见统计和机器学习工具箱™和深度学习工具箱™。

例子和如何

软件参考

跨越：使用交叉验证损失估计- 功能
CVPartition：为数据创建交叉验证分区- 功能

也可以看看：统计和机器学习工具箱那机器学习那监督学习那功能选择那正则化那线性模型

机器学习问题问并回答：所有关于模型验证

机器学习挑战：选择最佳分类模型，避免过度装备

互动白皮书