邻域分量分析（NCA）功能选择

邻域分量分析（NCA）是一种非参数方法，用于选择具有最大化回归和分类算法的预测准确性的目标。统计和机器学习工具箱™功能FSCNCA和FSRNCA.使用正则化执行NCA特征选择，以了解要最小化目标函数的特征权重，以测量培训数据的平均休假分类或回归损失。

NCA分类功能选择

考虑一个包含培训集的多级分类问题N观察结果：

$\begin{array}{l} S. = {（ X_{一世} 那 y_{一世} ）那一世 = 1 那 2 那 ...... 那 N} \end{array} 那$

在哪里 $X_{一世} \in ℝ^{P.}$ 特征向量是特征向量， $y_{一世} \in {1 那 2 那 ...... 那 C}$ 是班级标签，和C是课程的数量。目的是学习分类器 $F ： ℝ^{P.} \to {1 那 2 那 ...... 那 C}$ 接受特征向量并进行预测 $F （ X ）$ 对于真正的标签 $y$ 的 $X$ 。

考虑一个随机分类器：

随机挑选一点， $裁判（ X ）$ ，从 $S.$ 作为“参考点” $X$
标签 $X$ 使用参考点的标签 $裁判（ X ）$ 。

该方案类似于1-nn分类器的方案，其中参考点被选择为新点的最接近邻居 $X$ 。在NCA中，随机选择参考点，并且所有点 $S.$ 有一些被选为参考点的概率。概率 $P. （裁判（ X ） = X_{j} | S. ）$ 那一点 $X_{j}$ 被选中 $S.$ 作为参考点 $X$ 如果是较高 $X_{j}$ 更近 $X$ 通过距离功能来测量 ${D.}_{W.}$ ，在哪里

${D.}_{W.} （ X_{一世} 那 X_{j} ） = {σ.}_{R. = 1}^{P.} {W.}_{R.}^{2} | X_{一世 R.} - X_{j R.} | 那$

和 ${W.}_{R.}$ 是特征权重。假使，假设

$\begin{array}{l} P. （裁判（ X ） = X_{j} | S. ） α. K. （ {D.}_{W.} （ X 那 X_{j} ）） \end{array} 那$

在哪里 $K.$ 是一些内核或类似性函数，何时假设大的值 ${D.}_{W.} （ X 那 X_{j} ）$ 是小。假设它是

$K. （ Z. ） = exp. （ - \frac{Z.}{σ.} ）那$

如图所示[1]。参考点 $X$ 被选自 $S.$ ，所以总和 $P. （裁判（ X ） = X_{j} | S. ）$ 对所有人j必须等于1.因此，可以写入

$\begin{array}{l} P. （裁判（ X ） = X_{j} | S. ） = \frac{K. （ {D.}_{W.} （ X 那 X_{j} ））}{{σ.}_{j = 1}^{N} K. （ {D.}_{W.} （ X 那 X_{j} ））} \end{array} 。$

现在考虑这种随机分类器的休留一次应用，即预测标签 $X_{一世}$ 使用数据 ${S.}^{- 一世}$ ，培训集 $S.$ 排除这一点 $（ X_{一世} 那 y_{一世} ）$ 。点的概率 $X_{j}$ 被挑选为参考点 $X_{一世}$ 是

${P.}_{一世 j} = P. （裁判（ X_{一世} ） = X_{j} | {S.}^{- 一世} ） = \frac{K. （ {D.}_{W.} （ X_{一世} 那 X_{j} ））}{{σ.}_{j = 1 那 j \neq 一世}^{N} K. （ {D.}_{W.} （ X_{一世} 那 X_{j} ））} 。$

正确分类的平均休假概率是概率 ${P.}_{一世}$ 随机分类器正确分类观察一世使用 ${S.}^{- 一世}$ 。

$\begin{array}{l} {P.}_{一世} = {σ.}_{j = 1 那 j \neq 一世}^{N} P. （裁判（ X_{一世} ） = X_{j} | {S.}^{- 一世} ）一世（ y_{一世} = y_{j} ） \end{array} = {σ.}_{j = 1 那 j \neq 一世}^{N} {P.}_{一世 j} y_{一世 j} 那$

在哪里

$y_{一世 j} = 一世（ y_{一世} = y_{j} ） = {\begin{matrix} 1 & 如果 y_{一世} = y_{j 那} \\ 0. & 除此以外。 \end{matrix}$

使用随机分类器的正确分类的平均休假概率可以写入

$F （ W. ） = \frac{1}{N} {σ.}_{一世 = 1}^{N} {P.}_{一世} 。$

右手边 $F （ W. ）$ 取决于重量载体 $W.$ 。邻居分量分析的目标是最大化 $F （ W. ）$ 关于 $W.$ 。FSCNCA使用正常的目标函数如介绍[1]。

$\begin{array}{l} F （ W. ） & = \frac{1}{N} {σ.}_{一世 = 1}^{N} {P.}_{一世} - λ. {σ.}_{R. = 1}^{P.} {W.}_{R.}^{2} \\ = \frac{1}{N} {σ.}_{一世 = 1}^{N} \underset{F_{一世} （ W. ）}{\underset{}}{[{σ.}_{j = 1 那 j \neq 一世}^{N} {P.}_{一世 j} y_{一世 j} - λ. {σ.}_{R. = 1}^{P.} {W.}_{R.}^{2}]}} \\ = \frac{1}{N} {σ.}_{一世 = 1}^{N} F_{一世} （ W. ） \end{array} 那$

在哪里 $λ.$ 是正则化参数。正则化术语驱动了许多权重 $W.$ 到0。

选择内核参数后 $σ.$ 在 ${P.}_{一世 j}$ 作为1，找到体重矢量 $W.$ 可以表示为给定的以下最小化问题 $λ.$ 。

$\hat{W.} = \underset{W.}{argmin} F （ W. ） = \underset{W.}{argmin} \frac{1}{N} {σ.}_{一世 = 1}^{N} F_{一世} （ W. ）那$

在哪里F（W.）= -F（W.）和F_一世（W.）= -F_一世（W.）。

注意

$\frac{1}{N} {σ.}_{一世 = 1}^{N} {σ.}_{j = 1 那 j \neq 一世}^{N} {P.}_{一世 j} = 1 那$

如果您将常量添加到目标函数，则最小值的参数不会更改。因此，您可以通过添加常量1来重写目标函数。

$\begin{matrix} \hat{W.} = \underset{W.}{argmin} {1 + F （ W. ）} \\ = \underset{W.}{argmin} {\frac{1}{N} {σ.}_{一世 = 1}^{N} {σ.}_{j = 1 那 j \neq 一世}^{N} {P.}_{一世 j} - \frac{1}{N} {σ.}_{一世 = 1}^{N} {σ.}_{j = 1 那 j \neq 一世}^{N} {P.}_{一世 j} y_{一世 j} + λ. {σ.}_{R. = 1}^{P.} {W.}_{R.}^{2}} \\ = \underset{W.}{argmin} {\frac{1}{N} {σ.}_{一世 = 1}^{N} {σ.}_{j = 1 那 j \neq 一世}^{N} {P.}_{一世 j} （ 1 - y_{一世 j} ） + λ. {σ.}_{R. = 1}^{P.} {W.}_{R.}^{2}} \\ = \underset{W.}{argmin} {\frac{1}{N} {σ.}_{一世 = 1}^{N} {σ.}_{j = 1 那 j \neq 一世}^{N} {P.}_{一世 j} L. （ y_{一世} 那 y_{j} ） + λ. {σ.}_{R. = 1}^{P.} {W.}_{R.}^{2}} 那 \end{matrix}$

损失函数定义为

$L. （ y_{一世} 那 y_{j} ） = {\begin{matrix} 1 & 如果 y_{一世} \neq y_{j 那} \\ 0. & 除此以外。 \end{matrix}$

最小值的参数是最小化分类误差的重量载体。您可以使用使用的自定义丢失功能损失呼叫中的名称值对参数FSCNCA。

NCA的回归特征选择

这FSRNCA.函数对回归修改的NCA功能选择。给予N观察

$\begin{array}{l} S. = {（ X_{一世} 那 y_{一世} ）那一世 = 1 那 2 那 ...... 那 N} \end{array} 那$

与分类问题的唯一区别是响应值 $y_{一世} \in ℝ$ 是连续的。在这种情况下，目的是预测响应 $y$ 鉴于培训集 $S.$ 。

考虑一个随机回归模型：

随机挑选一个点（ $裁判（ X ）$ ）从 $S.$ 作为“参考点” $X$
设置响应值 $X$ 等于参考点的响应值 $裁判（ X ）$ 。

再次，概率 $P. （裁判（ X ） = X_{j} | S. ）$ 那一点 $X_{j}$ 被选中 $S.$ 作为参考点 $X$ 是

$\begin{array}{l} P. （裁判（ X ） = X_{j} | S. ） = \frac{K. （ {D.}_{W.} （ X 那 X_{j} ））}{{σ.}_{j = 1}^{N} K. （ {D.}_{W.} （ X 那 X_{j} ））} \end{array} 。$

现在考虑这种随机回归模型的休假应用，即预测响应 $X_{一世}$ 使用数据 ${S.}^{- 一世}$ ，培训集 $S.$ 排除这一点 $（ X_{一世} 那 y_{一世} ）$ 。点的概率 $X_{j}$ 被挑选为参考点 $X_{一世}$ 是

让 ${\hat{y}}_{一世}$ 是随机回归模型预测和的响应值 $y_{一世}$ 是实际的响应 $X_{一世}$ 。然后让 $L. ： ℝ^{2} \to ℝ$ 是一个衡量分歧的损失职能 ${\hat{y}}_{一世}$ 和 $y_{一世}$ 。然后，平均值 $L. （ y_{一世} 那 {\hat{y}}_{一世} ）$ 是

${L.}_{一世} = E. （ L. （ y_{一世} 那 {\hat{y}}_{一世} ） | {S.}^{- 一世} ） = {σ.}_{j = 1 那 j \neq 一世}^{N} {P.}_{一世 j} L. （ y_{一世} 那 y_{j} ）。$

添加正则化术语后，最小化的目标函数是：

$F （ W. ） = \frac{1}{N} {σ.}_{一世 = 1}^{N} {L.}_{一世} + λ. {σ.}_{R. = 1}^{P.} {W.}_{R.}^{2} 。$

默认损耗功能 $L. （ y_{一世} 那 y_{j} ）$ 对于回归的NCA是平均绝对偏差，但您可以使用使用的其他损失函数，包括自定义函数损失呼叫中的名称值对参数FSRNCA.。

标准化的影响

正则化术语导出无关预测器的权重为零。在NCA进行分类或回归的目标函数中，只有一个正则化参数 $λ.$ 适用于所有重量。该事实要求重量的大小相互彼此相当。当特征向量 $X_{一世}$ 在 $S.$ 在不同的尺度中，这可能会导致不同尺度的权重，而不是有意义的。为避免这种情况，在应用NCA之前标准化预测器以具有零均值和单位标准偏差。您可以使用该预测器标准化'标准化'，真实呼叫中的名称值对参数FSCNCA或者FSRNCA.。