主要内容

邻域分量分析(NCA)功能选择

邻域分量分析(NCA)是一种非参数的特征选择方法,其目标是最大限度地提高回归和分类算法的预测精度。统计和机器学习工具箱™函数fscncaFSRNCA使用正则化执行NCA功能选择,以了解要最小化目标函数的特征权重,以测量培训数据的平均休假分类或回归损失。

用于分类的NCA特征选择

考虑一个训练集包含的多类分类问题n观察:

年代 x y 1 2 ... n

在哪里 x p 是特征向量, y 1 2 ... c 是班级标签,还有c为类数。目的是学习分类器 f p 1 2 ... c 它接受一个特征向量并做出预测 f x 对于真正的标签 y x

考虑一个随机分类器:

  • 随机选择一个点, 裁判 x ,从 年代 作为“参考点” x

  • 标签 x 使用参考点的标签 裁判 x

该方案类似于1-NN分类器,其中参考点被选择为新点的最近邻居 x .在NCA中,随机选择参考点,并且所有点 年代 有一定的概率被选为参考点。的概率 P 裁判 x x j | 年代 那一点 x j 被选中 年代 作为参考点 x 较高的if. x j 更接近于 x 通过距离功能测量 d w ,在那里

d w x x j r 1 p w r 2 | x r x j r |

w r 是特征权重。假使,假设

P 裁判 x x j | 年代 k d w x x j

在哪里 k 是否某个核函数或相似函数在什么时候假设值很大 d w x x j 是小。假设是

k z 经验值 z σ.

书中建议的那样[1].参考点 x 选择从 年代 ,所以求和 P 裁判 x x j | 年代 对所有j必须等于1.因此,可以写入

P 裁判 x x j | 年代 k d w x x j j 1 n k d w x x j

现在考虑这个随机分类器的省略一应用,即预测的标签 x 使用 年代 ,培训集 年代 不包括的 x y .点的概率 x j 被挑选为参考点 x

p j P 裁判 x x j | 年代 k d w x x j j 1 j n k d w x x j

正确分类的平均休假概率是概率 p 随机分类器正确分类观察使用 年代

p j 1 j n P 裁判 x x j | 年代 y y j j 1 j n p j y j

在哪里

y j y y j 1 如果 y y j 0 除此以外

使用随机分类器进行正确分类的平均漏一概率为

F w 1 n 1 n p

右边的 F w 取决于权重向量 w .邻域分量分析的目标是最大化 F w 关于 w fscnca使用介绍的正常目标函数[1]

F w 1 n 1 n p λ. r 1 p w r 2 1 n 1 n j 1 j n p j y j λ. r 1 p w r 2 F w 1 n 1 n F w

在哪里 λ. 是正则化参数。正则化术语驱动许多重量 w 到0。

选择内核参数后 σ. p j 为1,找到体重矢量 w 可以表达为给定的以下最小化问题 λ.

w argmin. w f w argmin. w 1 n 1 n f w

在哪里fw) = -Fwfw) = -Fw

请注意,

1 n 1 n j 1 j n p j 1

最小值的参数不变如果你给目标函数加一个常数。因此,您可以通过添加常数1来重写目标函数。

w argmin. w 1 + f w argmin. w 1 n 1 n j 1 j n p j 1 n 1 n j 1 j n p j y j + λ. r 1 p w r 2 argmin. w 1 n 1 n j 1 j n p j 1 y j + λ. r 1 p w r 2 argmin. w 1 n 1 n j 1 j n p j l y y j + λ. r 1 p w r 2

损失函数定义为

l y y j 1 如果 y y j 0 除此以外

最小值的参数是最小化分类误差的重量载体。您可以使用使用的自定义丢失功能损失的调用中的名称-值对参数fscnca

nca回归的功能选择

FSRNCA函数执行修正后用于回归的NCA特征选择。鉴于n观察

年代 x y 1 2 ... n

唯一不同于分类问题的是响应值 y 是连续的。在这种情况下,目的是预测响应 y 鉴于培训集 年代

考虑一个随机回归模型:

  • 随机挑选一个点( 裁判 x ) 年代 作为“参考点” x

  • 将响应值设置为 x 等于参考点的响应值 裁判 x

再一次的概率 P 裁判 x x j | 年代 那一点 x j 被选中 年代 作为参考点 x

P 裁判 x x j | 年代 k d w x x j j 1 n k d w x x j

现在考虑一下这个随机回归模型的省略一的应用,即预测对 x 使用 年代 ,培训集 年代 不包括的 x y .点的概率 x j 被挑选为参考点 x

p j P 裁判 x x j | 年代 k d w x x j j 1 j n k d w x x j

y 为随机回归模型预测的响应值和 y 成为真正的回应 x .,让 l 2 是一种损失函数,用来衡量两者之间的分歧 y y .然后,取平均值 l y y

l E l y y | 年代 j 1 j n p j l y y j

添加正则化术语后,最小化的目标函数是:

f w 1 n 1 n l + λ. r 1 p w r 2

默认损失函数 l y y j 用于回归的NCA是平均绝对偏差,但您可以指定其他损失函数,包括自定义函数,使用损失的调用中的名称-值对参数FSRNCA

标准化的影响

正则化术语导出无关预测器的重量为零。在NCA进行分类或回归的目标函数中,只有一个正则化参数 λ. 适用于所有重量。该事实要求重物的大小相互彼此相当。当特征向量 x 年代 在不同的尺度中,这可能导致不同尺度的权重,而不是有意义的。为避免这种情况,在应用NCA之前,标准化预测器具有零均值和单位标准偏差。您可以使用该预测器标准化“标准化”,真的的调用中的名称-值对参数fscnca或者FSRNCA

选择正则化参数值

通常需要通过计算随机NCA分类器或回归模型在独立测试集上的准确性来选择正则化参数的值。如果使用交叉验证而不是单个测试集,请选择 λ. 值,该值使交叉验证折叠的平均损失最小化。有关示例,请参见调整正常化参数以检测使用NCA进行分类的功能调整正则化参数的NCA回归

参考

杨伟,王凯,左伟。高维数据的邻域成分特征选择电脑杂志》上。2012年1月,第7卷第1期。

另请参阅

|||

相关话题