使用正则化防止过度拟合

正则化技术用于防止预测模型中的统计过拟合。正则化算法通常通过对复杂性施加惩罚来工作,比如将模型系数添加到最小化中,或者包括粗糙度惩罚。通过在模型中引入额外的信息,正则化算法可以处理多重共线性和冗余预测量,使模型更加简洁和准确。

常用的正则化技术包括岭回归(也称为Tikhonov正则化)、lasso和弹性网算法、收缩质心方法以及迹线图和交叉验证均方误差。您还可以将Akaike信息标准(AIC)作为拟合优度度量应用。

每种正则化技术都为某些用例提供了优势。

  • 套索使用L1范数,并倾向于将单个系数值完全强制为零。因此,lasso作为一种特征选择算法非常有效。它可以快速识别少量关键变量。
  • 岭回归对系数使用L2范数(您正在最小化平方误差之和)。岭回归倾向于将系数收缩扩展到更多系数。如果您认为您的模型应该包含大量系数,岭回归可能是一种很好的技术。
  • 弹性网可以弥补套索无法识别其他预测因素的不足。

正则化与特征选择因为它迫使一个模型使用更少的预测器。正则化方法有一些明显的优势。

  • 正则化技术能够在比大多数特征选择方法更大的数据集上操作(除了单变量特征选择)。Lasso和ridge回归可以应用于包含数千,甚至数万个变量的数据集。
  • 正则化算法通常生成比特征选择更精确的预测模型。正则化作用于连续空间,而特征选择作用于离散空间。因此,正则化通常能够对模型进行微调,并产生更准确的估计。

但是,特征选择方法也有优点:

  • 功能选择更直观,更容易向第三方解释。当您在分享结果时必须描述您的方法时,这是很有价值的。
  • MATLAB®统计和机器学习工具箱™金宝app支持所有流行的正则化技术,可用于线性回归、逻辑回归、支持向量机和线性判别分析。如果您正在使用其他模型类型,如增强决策树,则需要应用特征选择。

要点

  • 正则化(与特征选择一起使用)用于防止预测模型中的统计过拟合。
  • 由于正则化在一个连续的空间上运行,因此它可以在适用于各种线性建模的机器学习问题上优于离散特征选择。

示例场景

假设您正在进行一项癌症研究。您拥有500名不同癌症患者的基因序列,您正在尝试确定15000个不同基因中的哪一个对疾病的进展有显著影响。您可以应用以下特征排序方法之一:最小冗余最大相关性邻域成分分析,如果您关心运行时,则为单变量;对于这么多不同的变量,只有顺序特征选择是完全不切实际的。或者,您可以使用正则化探索模型。您不能使用岭回归,因为它不能足够快地将系数完全强制为零。同时,你不能使用套索,因为你可能需要识别500多个不同的基因。弹性网是一种可能的解决方案。

另见:特征选择,机器学习,监督学习,线性模型,AutoML

机器学习的挑战:选择最佳分类模型和避免过拟合