邻域分量分析(NCA)是一种非参数方法,用于选择具有最大化回归和分类算法的预测准确性的目标。统计和机器学习工具箱™功能FSCNCA
和FSRNCA.
使用正则化执行NCA特征选择,以了解要最小化目标函数的特征权重,以测量培训数据的平均休假分类或回归损失。
考虑一个包含培训集的多级分类问题N观察结果:
在哪里 特征向量是特征向量, 是班级标签,和C是课程的数量。目的是学习分类器 接受特征向量并进行预测 对于真正的标签 的 。
考虑一个随机分类器:
随机挑选一点, , 从 作为“参考点”
标签 使用参考点的标签 。
该方案类似于1-nn分类器的方案,其中参考点被选择为新点的最接近邻居 。在NCA中,随机选择参考点,并且所有点 有一些被选为参考点的概率。概率 那一点 被选中 作为参考点 如果是较高 更近 通过距离功能来测量 , 在哪里
和 是特征权重。假使,假设
在哪里 是一些内核或类似性函数,何时假设大的值 是小。假设它是
如图所示[1]。参考点 被选自 ,所以总和 对所有人j必须等于1.因此,可以写入
现在考虑这种随机分类器的休留一次应用,即预测标签 使用数据 ,培训集 排除这一点 。点的概率 被挑选为参考点 是
正确分类的平均休假概率是概率 随机分类器正确分类观察一世使用 。
在哪里
使用随机分类器的正确分类的平均休假概率可以写入
右手边
取决于重量载体
。邻居分量分析的目标是最大化
关于
。FSCNCA
使用正常的目标函数如介绍[1]。
在哪里 是正则化参数。正则化术语驱动了许多权重 到0。
选择内核参数后 在 作为1,找到体重矢量 可以表示为给定的以下最小化问题 。
在哪里F(W.)= -F(W.)和F一世(W.)= -F一世(W.)。
注意
如果您将常量添加到目标函数,则最小值的参数不会更改。因此,您可以通过添加常量1来重写目标函数。
损失函数定义为
最小值的参数是最小化分类误差的重量载体。您可以使用使用的自定义丢失功能损失
呼叫中的名称值对参数FSCNCA
。
这FSRNCA.
函数对回归修改的NCA功能选择。给予N观察
与分类问题的唯一区别是响应值 是连续的。在这种情况下,目的是预测响应 鉴于培训集 。
考虑一个随机回归模型:
随机挑选一个点( ) 从 作为“参考点”
设置响应值 等于参考点的响应值 。
再次,概率 那一点 被选中 作为参考点 是
现在考虑这种随机回归模型的休假应用,即预测响应 使用数据 ,培训集 排除这一点 。点的概率 被挑选为参考点 是
让 是随机回归模型预测和的响应值 是实际的响应 。然后让 是一个衡量分歧的损失职能 和 。然后,平均值 是
添加正则化术语后,最小化的目标函数是:
默认损耗功能
对于回归的NCA是平均绝对偏差,但您可以使用使用的其他损失函数,包括自定义函数损失
呼叫中的名称值对参数FSRNCA.
。
正则化术语导出无关预测器的权重为零。在NCA进行分类或回归的目标函数中,只有一个正则化参数
适用于所有重量。该事实要求重量的大小相互彼此相当。当特征向量
在
在不同的尺度中,这可能会导致不同尺度的权重,而不是有意义的。为避免这种情况,在应用NCA之前标准化预测器以具有零均值和单位标准偏差。您可以使用该预测器标准化'标准化',真实
呼叫中的名称值对参数FSCNCA
或者FSRNCA.
。
通常需要通过计算独立测试集上的随机NCA分类器或回归模型的准确性来选择正则化参数的值。如果使用交叉验证而不是单个测试集,请选择 值最小化交叉验证折叠的平均损失。对于例子,见调整正常化参数以检测使用NCA进行分类的功能和回归NCA中的曲调正则化参数。
[1]杨,W.,K. Wang,W. Zuo。“高维数据的邻域组件功能选择。”电脑杂志。卷。7,1月1日,2012年1月。
PeazereSelectionNcaclassification.
|PeazereSentionncarebortion
|FSCNCA
|FSRNCA.