正则化

预防正则化

正规化技术用于防止预测模型中的统计过度拟合。正则化算法通常通过对复杂性的惩罚应用惩罚,例如通过将模型的系数添加到最小化或包括粗糙度惩罚。通过将附加信息引入模型中,正规化算法可以通过使模型更加解析和准确来处理多色性和冗余预测因子。

流行的正则化技术包括脊回归(也称为Tikhonov正规化),套索和弹性净算法,缩小质心的方法,以及跟踪图和交叉验证均方误差。您也可以将Akaike信息标准(AIC)应用为适合度量的公制。

每个正则化技术为某些用例提供优势。

  • 套索使用L1规范,倾向于完全强制各个系数值朝向零。因此,套索工作得很好,作为特征选择算法。它很快识别少数键变量。
  • Ridge回归使用L2标准为系数(您最小化平方误差的总和)。脊回归倾向于在较大数量的系数上扩散系数收缩。如果您认为您的模型应该包含大量系数,则Ridge回归可能是一种很好的技术。
  • 弹性网可以弥补套索无法识别额外的预测因子。

正规化与之相关功能选择在那迫使模型使用更少的预测器。正则化方法具有一些独特的优势。

  • 正则化技术能够以大多数特征选择方法(单变量特征选择除外)更大的数据集。套索和岭回归可以应用于包含数千个,即使成千上万的变量的数据集。
  • 正则化算法通常会产生比特征选择更准确的预测模型。正则化在连续空间上运行,而特征选择在离散空间上运行。结果,正规化通常能够微调模型并产生更准确的估计。

但是,特征选择方法也有优势:

  • 特征选择有点直观,更容易向第三方解释。当您在分享结果时必须描述您的方法时,这是有价值的。
  • 马铃薯®统计和机器学习工具箱™金宝app支持所有流行的正则化技术,可用于线性回归,逻辑回归,支持向量机和线性判别分析。如果您正在使用其他模型类型,如提升决策树,则需要应用功能选择。

关键点

  • 使用正则化(以及特征选择)以防止预测模型中的统计过度拟合。
  • 由于正则化在连续空间上运行,因此可以优于机器学习问题的离散特征选择,从而为各种线性建模提供。

示例场景

让我们假设您正在运行癌症研究研究。您对500种不同癌症患者的基因序列,您试图确定15,000个不同基因中的哪一个对疾病的进展产生意外影响。您可以应用一个特征排名方法之一最小冗余最大相关性邻里分量分析如果您关注运行时,或者单次单变量;只有顺序特征选择与此许多不同的变量完全不切实际。或者,您可以使用正规化探索模型。您无法使用RIDGE回归,因为它不会完全强制系数速度快速零。与此同时,您不能使用套索,因为您可能需要识别超过500个不同的基因。弹性网是一种可能的解决方案。

也可以看看:功能选择机器学习监督学习线性模型自动化

免费白皮书

机器学习挑战:选择最佳分类模型,避免过度装备

了解最常见的分类模型的优势,了解如何纠正和防止过度装备,并在MATLAB中看到有用的功能。

阅读白皮书