正则化- MATLAB和Simulink金宝app - 金宝app,下载188bet金宝搏,金宝搏官方网站

用正规化防止过拟合

正则化技术用于防止预测模型中的统计过拟合。正则化算法通常通过对复杂性施加惩罚来工作，比如将模型系数添加到最小化中，或者包括粗糙度惩罚。通过在模型中引入额外的信息，正则化算法可以处理多重共线性和冗余预测量，使模型更加简洁和准确。

流行的正则化技术包括脊回归(也称为吉洪诺夫正则化)，套索和弹性网算法，缩小质心方法，以及轨迹图和交叉验证的均方误差。您还可以应用赤池信息标准(AIC)作为适合度度量。

每种正则化技术都为某些用例提供了优势。

套索使用L1范数，并倾向于迫使单个系数值完全趋近于零。因此，lasso作为一种特征选择算法非常有效。它能快速识别少量关键变量。
岭回归使用L2范数的系数(你正在最小化的平方和误差)。岭回归倾向于将系数的收缩分散到更多的系数上。如果您认为您的模型应该包含大量的系数，岭回归可能是一个很好的技术。
弹性网可以弥补拉索无法识别额外的预测因素。

正则化是相关的特征选择因为它迫使一个模型使用更少的预测器。正则化方法有一些明显的优势。

正则化技术能够在比大多数特征选择方法更大的数据集上操作(除了单变量特征选择)。Lasso和ridge回归可以应用于包含数千，甚至数万个变量的数据集。
正则化算法通常生成比特征选择更精确的预测模型。正则化作用于连续空间，而特征选择作用于离散空间。因此，正则化通常能够对模型进行微调，并产生更准确的估计。

然而，特征选择方法也有优点:

特征选择在某种程度上更直观，更容易向第三方解释。当你必须在分享结果时描述你的方法时，这是很有价值的。
MATLAB^®和统计和机器学习工具箱™金宝app支持所有流行的正则化技术，可用于线性回归、逻辑回归、支持向量机和线性判别分析。如果您正在处理其他模型类型，如增强决策树，则需要应用特征选择。

要点

正则化(与特征选择一起使用)用于防止预测模型中的统计过拟合。
由于正则化在连续空间上操作，它可以在机器学习问题上优于离散特征选择，这些问题使自己适合各种线性建模。

示例场景

假设你正在进行一项癌症研究。你有500个不同癌症患者的基因序列你试图确定15000个不同基因中哪一个对疾病的发展有重大影响。你可以应用一个功能排名方法，比如最小冗余最大关联和附近的成分分析，或者单变量，如果你关心运行时;对于这么多不同的变量，只有顺序特征选择是完全不切实际的。您还可以使用正则化来研究模型。你不能用岭回归因为它不能让系数很快完全为零。同时，你不能使用套索，因为你可能需要识别500多个不同的基因。弹性网是一种可能的解决方案。

例子和如何做

软件参考

参见:特征选择，机器学习，监督式学习，线性模型，AutoML

正则化对函数y=f(x)的作用

计算统计:特征选择，正则化和收缩与MATLAB

免费白皮书

机器学习的挑战:选择最佳分类模型和避免过拟合

了解最常见的分类模型的优点，学习如何纠正和防止过拟合，并在MATLAB中看到有用的函数。

读白皮书