主要内容

基于回归学习App的特征选择与特征转换

调查响应图中的特征

在回归学习器中,使用响应图来尝试识别对预测响应有用的预测因子。为了可视化不同预测因子与响应之间的关系,在,选择不同的变量X列表。

在训练回归模型之前,响应图显示了训练数据。如果您已经训练了一个回归模型,那么响应图也显示了模型预测。

观察哪些变量与响应最明显相关。当你绘制carbig数据集,预测器马力表现出与反应明显的负相关。

寻找似乎与响应和使用没有任何关联的特性特征选择从使用的预测器集中删除这些特征。看到选择要包含的功能

汽车数据的响应图,纵轴为每加仑行驶的英里数,横轴为马力

您可以将在应用程序中创建的响应图导出为数字。看到导出图在回归学习应用程序

选择要包含的功能

在回归学习器中,您可以指定要包含在模型中的不同特征(或预测器)。看看你是否可以通过删除低预测能力的特征来改进模型。如果数据收集昂贵或困难,您可能更喜欢使用较少预测器执行令人满意的模型。

您可以通过使用不同的特征排序算法来确定要包含哪些重要的预测因子。选择特征排序算法后,应用程序会显示排序后的特征重要性分数图,其中较大的分数(包括S)表示更重要的特征。该应用程序还会在表格中显示排名功能及其分数。

要在回归学习器中使用特征排序算法,请单击特征选择选项部分回归的学习者选项卡。应用程序打开一个默认特性选择选项卡,您可以在其中选择特征排序算法。

特征排序算法 金宝app支持的数据类型 描述
MRMR 分类和连续特征

对特征进行顺序排序最小冗余最大相关性(MRMR)算法

有关更多信息,请参见fsrmrmr

方差齐性检验 分类和连续特征

每个预测因子的重要性分别用一个F-test,然后使用p的值F以及统计数据。每一个F-test检验由预测变量值分组的响应值是从具有相同均值的总体中抽取的假设,而不是总体均值不完全相同的替代假设。分数对应于日志(p

有关更多信息,请参见fsrftest

RReliefF 要么是全部分类特征,要么是全部连续特征

对特征进行排序RReliefF算法。该算法最适合估计基于距离的监督模型的特征重要性,该模型使用观测值之间的成对距离来预测响应。

有关更多信息,请参见relieff

在选择排名最高的特征和选择单个特征之间进行选择。

  • 选择选择排名最高的功能为了避免验证指标的偏差。例如,如果你使用交叉验证方案,那么对于每个训练折叠,应用程序在训练模型之前执行特征选择。不同的折叠可以选择不同的预测因子作为排名最高的特征。

  • 选择选择单个特性在模型训练中包含特定的特征。如果您使用交叉验证方案,那么应用程序在所有训练折叠中使用相同的功能。

选择功能后,单击保存并应用。中的所有草稿模型都会受到您的选择的影响模型面板中的图库创建的新草稿模型模型部分回归的学习者选项卡。

要为单个草稿模型选择特征,请打开并编辑模型摘要。中的模型模型窗格,然后单击模型总结TAB(如有必要)。的总结选项卡包含一个可编辑的特征选择部分。

在你训练了一个模型之后特征选择模型剖面图总结TAB列出用于训练完整模型的特征(即,使用训练和验证数据训练的模型)。要了解有关Regression Learner如何将特征选择应用于数据的更多信息,请为训练好的回归模型生成代码。有关更多信息,请参见生成MATLAB代码用新数据训练模型

有关使用特征选择的示例,请参见训练回归树使用回归学习应用程序

回归学习器中PCA特征变换

使用主成分分析(PCA)来降低预测空间的维数。降低维数可以在回归学习器中创建回归模型,有助于防止过拟合。PCA对预测因子进行线性变换以去除冗余维度,并生成一组称为主成分的新变量。

  1. 回归的学习者选项卡,在选项部分中,选择主成分分析

  2. 在“Default PCA Options”对话框中,选择“。使主成分分析复选框,然后单击保存并应用

    该应用程序将更改应用于所有现有的草稿模型模型面板中的图库创建的新草稿模型模型部分回归的学习者选项卡。

  3. 下次训练模型时火车都按钮时,主成分分析Function在训练模型之前对选定的特征进行转换。

  4. 默认情况下,PCA只保留解释95%方差的成分。在默认PCA选项对话框中,您可以通过选择解释的方差价值。较高的值有过拟合的风险,而较低的值有删除有用维度的风险。

  5. 如果需要手动限制PCA组件的数量,请选择指定组件数量成分约简准则列表。选择数字分量的数目价值。组件的数量不能大于数字预测器的数量。PCA不适用于分类预测因子。

中检查训练模型的PCA选项主成分分析部分总结选项卡。中单击已训练的模型模型窗格,然后单击模型总结TAB(如有必要)。例如:

PCA保留了足够的成分来解释95%的方差。训练结束后,保留2个组件。每个成分的解释方差(按顺序):92.5%,5.3%,1.7%,0.5%
检查解释方差百分比,以决定是否更改组件的数量。

要了解有关Regression Learner如何将PCA应用于数据的更多信息,请为训练好的回归模型生成代码。有关PCA的更多信息,请参见主成分分析函数。

相关的话题