主要内容

FeatureSelectionNCARegression类

使用邻域成分分析(NCA)进行回归的特征选择

描述

FeatureSelectionNCARegression包含邻域分量分析(NCA)模型的数据、拟合信息、特征权重和其他模型参数。fsrnca使用NCA的对角线自适应学习特征权重,并返回的实例FeatureSelectionNCARegression对象。该函数通过正则化特征权重来实现特征选择。

建设

创建一个FeatureSelectionNCAClassification对象使用fsrnca

属性

全部展开

训练数据中的观察数(X而且Y)拆卸后值,存储为标量。

数据类型:

用于训练模型的模型参数,存储为结构。

的字段可以访问ModelParameters使用点表示法。

例如,对于一个名为FeatureSelectionNCARegression的对象mdl,您可以访问LossFunction使用价值mdl.ModelParameters.LossFunction

数据类型:结构体

用于训练此模型的正则化参数,存储为标量。为n观察是最好的λ将NCA模型的泛化误差最小化的值预期为1/的倍数n

数据类型:

用于拟合此模型的拟合方法的名称,存储为以下之一:

  • “准确”-使用所有数据进行拟合。

  • “没有”-不合身。使用此选项可使用调用中提供的初始特征权重来评估NCA模型的泛化误差fsrnca

  • “平均”-该软件将数据划分为分区(子集),适合每个分区使用确切的方法,并返回特征权重的平均值。属性指定分区的数量NumPartitions名称-值对参数。

用于拟合此模型的求解器的名称,存储为以下之一:

  • “lbfgs”-有限内存Broyden-Fletcher-Goldfarb-Shanno (LBFGS)算法

  • “sgd”-随机梯度下降(SGD)算法

  • “minibatch-lbfgs”-随机梯度下降与LBFGS算法应用于小批量

梯度范数上的相对收敛容差“lbfgs”而且“minibatch-lbfgs”解算器,存储为正标量值。

数据类型:

优化的最大迭代次数,存储为正整数值。

数据类型:

的最大通行数“sgd”而且“minibatch-lbfgs”解决者。每一次传递都会处理数据中的所有观测数据。

数据类型:

初始学习率“sgd”而且“minibatch-lbfgs”解决者。的指定值开始,学习率在迭代过程中衰减InitialLearningRate

使用NumTuningIterations而且TuningSubsetSize控制初始学习率的自动调优在调用到fsrnca

数据类型:

详细级别指示器,存储为非负整数。可能取值为:

  • 0 -没有收敛摘要

  • 1 -收敛总结,包括梯度范数和目标函数值

  • >1 -更多的收敛信息,取决于拟合算法。当你使用“minibatch-lbfgs”求解器和详细级别> 1时,收敛信息包括中间小批量LBFGS拟合的迭代日志。

数据类型:

初始特征权重,存储为p-by-1向量的正实标量,其中p预测因子的数量在吗X

数据类型:

特征权重,存储为p-by-1向量的实标量值,其中p预测因子的数量在吗X

“FitMethod”等于“平均”FeatureWeights是一个p——- - - - - -矩阵,分区的数量是否通过“NumPartitions”调用中的名称-值对参数fsrnca

的绝对值FeatureWeights (k)预测器的重要性是否有测量k.如果FeatureWeights (k)接近于0,那么这个预示着那个预测器k不影响反应在Y

数据类型:

拟合信息,存储为具有以下字段的结构。

字段名 意义
迭代 迭代索引
客观的 正则化目标函数的最小化
UnregularizedObjective 非正则化目标函数的最小化
梯度 正则化目标函数的最小化梯度
  • 的分类,UnregularizedObjective为NCA分类器在训练数据上的遗漏准确率的负数。

  • 对于回归,UnregularizedObjective表示使用NCA回归模型时真实响应与预测响应之间的差一损失。

  • “lbfgs”解算器,梯度是最终的梯度。为“sgd”而且“minibatch-lbfgs”解决,梯度是最终的小批量梯度。

  • 如果FitMethod“平均”,然后FitInfo是一个-by-1结构数组,其中分区的数量是否通过“NumPartitions”名称-值对参数。

的字段可以访问FitInfo使用点表示法。例如,对于一个名为FeatureSelectionNCARegressionobject的mdl,您可以访问客观的现场使用mdl.FitInfo.Objective

数据类型:结构体

预测器表示,存储为ap-by-1向量为标准化训练数据。在这种情况下,预测方法中心预测矩阵X通过减去各自的元素μ从每一列。

如果在训练过程中数据没有标准化,那么μ是空的。

数据类型:

预测器标准差,存储为ap-by-1向量为标准化训练数据。在这种情况下,预测方法缩放预测矩阵X每一列都除以的元素σ定心后的数据使用μ

如果在训练过程中数据没有标准化,那么σ是空的。

数据类型:

用于训练该模型的预测器值,存储为n——- - - - - -p矩阵。n观察的次数和p是训练数据中预测变量的数量。

数据类型:

用于训练此模型的响应值,存储为大小的数值向量n,其中n为观测次数。

数据类型:

用于训练该模型的观察权重,存储为大小的数值向量n.观测权值之和为n

数据类型:

方法

损失 评估学习到的特征权重在测试数据上的准确性
预测 使用邻域成分分析(NCA)回归模型预测反应
改装 修正邻域成分分析(NCA)模型进行回归

例子

全部折叠

加载样例数据。

负载进口- 85

前15列包含连续预测变量,而第16列包含响应变量,即汽车的价格。定义邻域组件分析模型的变量。

预测因子= X(:,1:15);Y = x (:,16);

拟合邻域成分分析(NCA)模型进行回归,以检测相关特征。

mdl = fsrnca(预测因子,Y);

返回的NCA模型,mdl,是一个FeatureSelectionNCARegression对象。该对象存储关于训练数据、模型和优化的信息。您可以使用点表示法访问对象属性,例如特性权重。

绘制特征权重。

图()图(mdl。FeatureWeights,“罗”)包含(“功能指数”) ylabel (“功能重量”网格)

图中包含一个轴对象。axis对象包含一个line类型的对象。

不相关特征的权重为零。的“详细”,1的调用中的fsrnca在命令行上显示优化信息。您还可以通过绘制目标函数与迭代数的关系来可视化优化过程。

图()图(mdl.FitInfo.Iteration mdl.FitInfo.Objective,“ro - - - - - -”网格)包含(的迭代次数) ylabel (“目标”

图中包含一个轴对象。axis对象包含一个line类型的对象。

ModelParameters属性是一个结构体包含关于模型的更多信息。可以使用点表示法访问此属性的字段。例如,查看数据是否标准化。

mdl.ModelParameters.Standardize
ans =逻辑0

0意味着在拟合NCA模型之前,数据没有标准化。当预测器处于非常不同的规模时,可以使用“标准化”,1调用中的名称-值对参数fsrnca

复制语义

价值。要了解值类如何影响复制操作,请参见复制对象

版本历史

在R2016b中引入