正则化

用正规化防止过拟合

正规化技术用于防止预测模型中的统计过度拟合。正则化算法通常通过对复杂性的惩罚应用惩罚,例如通过将模型的系数添加到最小化或包括粗糙度惩罚。通过将附加信息引入模型中,正规化算法可以通过使模型更加解析和准确来处理多色性和冗余预测因子。

流行的正则化技术包括脊回归(也称为吉洪诺夫正则化),套索和弹性网算法,缩小质心方法,以及轨迹图和交叉验证的均方误差。您还可以应用赤池信息标准(AIC)作为适合度度量。

每种正则化技术都为某些用例提供了优势。

  • 套索使用L1范数,并倾向于迫使单个系数值完全趋近于零。因此,lasso作为一种特征选择算法非常有效。它能快速识别少量关键变量。
  • 岭回归使用L2范数的系数(你正在最小化的平方和误差)。岭回归倾向于将系数的收缩分散到更多的系数上。如果您认为您的模型应该包含大量的系数,岭回归可能是一个很好的技术。
  • 弹性网可以弥补拉索无法识别额外的预测因素。

正则化是相关的特征选择在那迫使模型使用更少的预测器。正则化方法具有一些独特的优势。

  • 正则化技术能够以大多数特征选择方法(单变量特征选择除外)更大的数据集。套索和岭回归可以应用于包含数千个,即使成千上万的变量的数据集。
  • 正则化算法通常会产生比特征选择更准确的预测模型。正则化在连续空间上运行,而特征选择在离散空间上运行。结果,正规化通常能够微调模型并产生更准确的估计。

然而,特征选择方法也有优点:

  • 特征选择在某种程度上更直观,更容易向第三方解释。当你必须在分享结果时描述你的方法时,这是很有价值的。
  • MATLAB®统计和机器学习工具箱™金宝app支持所有流行的正则化技术,可用于线性回归、逻辑回归、支持向量机和线性判别分析。如果您正在处理其他模型类型,如增强决策树,则需要应用特征选择。

要点

  • 使用正则化(以及特征选择)以防止预测模型中的统计过度拟合。
  • 由于正则化在连续空间上操作,它可以在机器学习问题上优于离散特征选择,这些问题使自己适合各种线性建模。

示例场景

让我们假设您正在运行癌症研究研究。您对500种不同癌症患者的基因序列,您试图确定15,000个不同基因中的哪一个对疾病的进展产生意外影响。您可以应用一个特征排名方法之一最小冗余最大关联附近的成分分析,或者单变量,如果你关心运行时;对于这么多不同的变量,只有顺序特征选择是完全不切实际的。您还可以使用正则化来研究模型。你不能用岭回归因为它不能让系数很快完全为零。同时,你不能使用套索,因为你可能需要识别500多个不同的基因。弹性网是一种可能的解决方案。

参见:特征选择机器学习监督式学习线性模型AutoML

免费白皮书

机器学习挑战:选择最佳分类模型,避免过度装备

了解最常见的分类模型的优势,了解如何纠正和防止过度装备,并在MATLAB中看到有用的功能。

阅读白皮书