邻里成分分析（NCA）特征选择

邻里成分分析（NCA）是用于最大化的回归和分类算法的预测精度的目标选择特征的非参数方法。统计和机器学习工具箱™功能fscnca和fsrnca正则化进行NCA特征选择学习功能权重的目标函数的最小化的措施在训练数据的平均留一出分类或回归的损失。

对于分类NCA特征选择

考虑包含训练集的多类分类问题ñ意见：

$\begin{array}{l} 小号 = {（ X_{一世} ， ÿ_{一世} ），一世 = 1 ， 2 ， ... ， ñ} \end{array} ，$

哪里 $X_{一世} \in ℝ^{p}$ 是特征向量， $ÿ_{一世} \in {1 ， 2 ， ... ， C}$ 是类标签，C是的类的数量。其目的是学习的分类 $F ： ℝ^{p} \to {1 ， 2 ， ... ， C}$ 接受的特征向量和进行预测 $F （ X ）$ 对于真正的标签 $ÿ$ 的 $X$ 。

考虑随机分类如下：

随机选取一个点， $参考（ X ）$ 从 $小号$ 作为“参考点”为 $X$
标签 $X$ 使用参考点的标签 $参考（ X ）$ 。

这种方案类似于其中选择的基准点作为新的点的最近邻一个1-NN分类器的 $X$ 。在NCA，基准点是随机选择，并在所有点 $小号$ 有被选择作为参考点的某个概率。概率 $P （参考（ X ） = X_{Ĵ} | 小号）$ 这一点 $X_{Ĵ}$ 从采摘 $小号$ 作为参考点为 $X$ 是，如果高 $X_{Ĵ}$ 接近 $X$ 如通过距离函数测量 $d_{w ^}$ ，其中

$d_{w ^} （ X_{一世} ， X_{Ĵ} ） = Σ_{[R = 1}^{p} {w ^}_{[R}^{2} | X_{一世 [R} - X_{Ĵ [R} | ，$

和 ${w ^}_{[R}$ 是特征的权重。假使，假设

$\begin{array}{l} P （参考（ X ） = X_{Ĵ} | 小号） α ķ （ d_{w ^} （ X ， X_{Ĵ} ）） \end{array} ，$

哪里 $ķ$ 一些内核或假设当值较大的相似性功能 $d_{w ^} （ X ， X_{Ĵ} ）$ 是小。假设它是

$ķ （ ž ） = EXP （ - \frac{ž}{σ} ），$

如建议在[1]。参考点 $X$ 选自 $小号$ ，这样的总结 $P （参考（ X ） = X_{Ĵ} | 小号）$ 对所有人Ĵ必须等于1。因此，有可能写入

$\begin{array}{l} P （参考（ X ） = X_{Ĵ} | 小号） = \frac{ķ （ d_{w ^} （ X ， X_{Ĵ} ））}{Σ_{Ĵ = 1}^{ñ} ķ （ d_{w ^} （ X ， X_{Ĵ} ））} \end{array} 。$

现在考虑这个随机分类，那就是留一出应用，预测的标签 $X_{一世}$ 使用数据 ${小号}^{- 一世}$ ，训练集 $小号$ 不包括点 $（ X_{一世} ， ÿ_{一世} ）$ 。概率点 $X_{Ĵ}$ 被拾取作为基准点用于 $X_{一世}$ 是

$p_{一世 Ĵ} = P （参考（ X_{一世} ） = X_{Ĵ} | {小号}^{- 一世} ） = \frac{ķ （ d_{w ^} （ X_{一世} ， X_{Ĵ} ））}{Σ_{Ĵ = 1 ， Ĵ \neq 一世}^{ñ} ķ （ d_{w ^} （ X_{一世} ， X_{Ĵ} ））} 。$

正确分类的平均留一出概率是概率 $p_{一世}$ 该随机分类正确分类观察一世运用 ${小号}^{- 一世}$ 。

$\begin{array}{l} p_{一世} = Σ_{Ĵ = 1 ， Ĵ \neq 一世}^{ñ} P （参考（ X_{一世} ） = X_{Ĵ} | {小号}^{- 一世} ）一世（ ÿ_{一世} = ÿ_{Ĵ} ） \end{array} = Σ_{Ĵ = 1 ， Ĵ \neq 一世}^{ñ} p_{一世 Ĵ} ÿ_{一世 Ĵ} ，$

哪里

$ÿ_{一世 Ĵ} = 一世（ ÿ_{一世} = ÿ_{Ĵ} ） = {\begin{matrix} 1 & 如果 ÿ_{一世} = ÿ_{Ĵ ，} \\ 0 & 除此以外。 \end{matrix}$

使用随机分类正确分类的平均留一出概率可以写成

$F （ w ^） = \frac{1}{ñ} Σ_{一世 = 1}^{ñ} p_{一世} 。$

右手边 $F （ w ^）$ 依赖于权值向量 $w ^$ 。邻里成分分析的目标是最大化 $F （ w ^）$ 关于 $w ^$ 。fscnca使用正则化的目标函数如在引入[1]。

$\begin{array}{l} F （ w ^） & = \frac{1}{ñ} Σ_{一世 = 1}^{ñ} p_{一世} - λ Σ_{[R = 1}^{p} {w ^}_{[R}^{2} \\ = \frac{1}{ñ} Σ_{一世 = 1}^{ñ} \underset{F_{一世} （ w ^）}{\underset{}}{[Σ_{Ĵ = 1 ， Ĵ \neq 一世}^{ñ} p_{一世 Ĵ} ÿ_{一世 Ĵ} - λ Σ_{[R = 1}^{p} {w ^}_{[R}^{2}]}} \\ = \frac{1}{ñ} Σ_{一世 = 1}^{ñ} F_{一世} （ w ^） \end{array} ，$

哪里 $λ$ 是调整参数。正则长期驱动器的许多在权重 $w ^$ 为0。

选择内核参数后 $σ$ 在 $p_{一世 Ĵ}$ 为1，找出权向量 $w ^$ 可以表示为下面的最小化问题给定 $λ$ 。

$\hat{w ^} = \underset{w ^}{argmin} F （ w ^） = \underset{w ^}{argmin} \frac{1}{ñ} Σ_{一世 = 1}^{ñ} F_{一世} （ w ^），$

哪里F（w ^）= -F（w ^）和F_一世（w ^）= -F_一世（w ^）。

注意

$\frac{1}{ñ} Σ_{一世 = 1}^{ñ} Σ_{Ĵ = 1 ， Ĵ \neq 一世}^{ñ} p_{一世 Ĵ} = 1 ，$

如果你添加一个常数的目标函数最小的参数不会改变。因此，你可以通过添加常数1重写目标函数。

$\begin{matrix} \hat{w ^} = \underset{w ^}{argmin} {1 + F （ w ^）} \\ = \underset{w ^}{argmin} {\frac{1}{ñ} Σ_{一世 = 1}^{ñ} Σ_{Ĵ = 1 ， Ĵ \neq 一世}^{ñ} p_{一世 Ĵ} - \frac{1}{ñ} Σ_{一世 = 1}^{ñ} Σ_{Ĵ = 1 ， Ĵ \neq 一世}^{ñ} p_{一世 Ĵ} ÿ_{一世 Ĵ} + λ Σ_{[R = 1}^{p} {w ^}_{[R}^{2}} \\ = \underset{w ^}{argmin} {\frac{1}{ñ} Σ_{一世 = 1}^{ñ} Σ_{Ĵ = 1 ， Ĵ \neq 一世}^{ñ} p_{一世 Ĵ} （ 1 - ÿ_{一世 Ĵ} ） + λ Σ_{[R = 1}^{p} {w ^}_{[R}^{2}} \\ = \underset{w ^}{argmin} {\frac{1}{ñ} Σ_{一世 = 1}^{ñ} Σ_{Ĵ = 1 ， Ĵ \neq 一世}^{ñ} p_{一世 Ĵ} 升（ ÿ_{一世} ， ÿ_{Ĵ} ） + λ Σ_{[R = 1}^{p} {w ^}_{[R}^{2}} ， \end{matrix}$

其中损失函数定义为

$升（ ÿ_{一世} ， ÿ_{Ĵ} ） = {\begin{matrix} 1 & 如果 ÿ_{一世} \neq ÿ_{Ĵ ，} \\ 0 & 除此以外。 \end{matrix}$

最小的说法是，最小化了分类误差的权重向量。您可以使用指定自定义损失函数LossFunction在调用的名称 - 值对参数fscnca。

对于回归NCA特征选择

该fsrnca函数执行修改后用于回归NCA特征选择。特定ñ意见

$\begin{array}{l} 小号 = {（ X_{一世} ， ÿ_{一世} ），一世 = 1 ， 2 ， ... ， ñ} \end{array} ，$

从分类问题的唯一区别是，响应值 $ÿ_{一世} \in ℝ$ 是连续的。在这种情况下，目的是预测响应 $ÿ$ 给定训练集 $小号$ 。

考虑随机回归模型：

随机选取一个点（ $参考（ X ）$ ）从 $小号$ 作为“参考点”为 $X$
设置在响应值 $X$ 等于所述参考点的响应值 $参考（ X ）$ 。

再次，概率 $P （参考（ X ） = X_{Ĵ} | 小号）$ 这一点 $X_{Ĵ}$ 从采摘 $小号$ 作为参考点为 $X$ 是

$\begin{array}{l} P （参考（ X ） = X_{Ĵ} | 小号） = \frac{ķ （ d_{w ^} （ X ， X_{Ĵ} ））}{Σ_{Ĵ = 1}^{ñ} ķ （ d_{w ^} （ X ， X_{Ĵ} ））} \end{array} 。$

现在考虑这个随机回归模型，那就是留一出应用，预测为响应 $X_{一世}$ 使用数据 ${小号}^{- 一世}$ ，训练集 $小号$ 不包括点 $（ X_{一世} ， ÿ_{一世} ）$ 。概率点 $X_{Ĵ}$ 被拾取作为基准点用于 $X_{一世}$ 是

让 ${\hat{ÿ}}_{一世}$ 是响应值的随机化的回归模型预测和 $ÿ_{一世}$ 对于实际的响应 $X_{一世}$ 。然后让 $升： ℝ^{2} \to ℝ$ 是测量之间的分歧损失函数 ${\hat{ÿ}}_{一世}$ 和 $ÿ_{一世}$ 。然后，平均值 $升（ ÿ_{一世} ， {\hat{ÿ}}_{一世} ）$ 是

$升_{一世} = Ë （升（ ÿ_{一世} ， {\hat{ÿ}}_{一世} ） | {小号}^{- 一世} ） = Σ_{Ĵ = 1 ， Ĵ \neq 一世}^{ñ} p_{一世 Ĵ} 升（ ÿ_{一世} ， ÿ_{Ĵ} ）。$

加入正则化项之后，最小化的目标函数为：

$F （ w ^） = \frac{1}{ñ} Σ_{一世 = 1}^{ñ} 升_{一世} + λ Σ_{[R = 1}^{p} {w ^}_{[R}^{2} 。$

默认的损失函数 $升（ ÿ_{一世} ， ÿ_{Ĵ} ）$ 为NCA的回归是绝对离差，但您可以指定其他损失的功能，包括一个自定义，使用LossFunction在调用的名称 - 值对参数fsrnca。

标准化的影响

正则项派生无关预测的权重为零。在用于NCA目标函数用于分类或消退，仅存在一个正则化参数 $λ$ 所有的权重。这一事实需要权重的大小是相互媲美。当特征向量 $X_{一世}$ 在 $小号$ 在不同的尺度，这可能导致了在不同的尺度，而不是有意义的权重。为了避免这种情况，规范了预测应用NCA之前，具有零均值和单位标准偏差。您可以使用规范的预测“标准化”，真在调用的名称 - 值对参数fscnca要么fsrnca。