社区成分分析(NCA)特征选择- MATLAB和Simulink MathWorks德国金宝app - 金宝app,下载188bet金宝搏,金宝搏官方网站

社区成分分析(NCA)特征选择

社区成分分析(NCA)是一种非参数方法选择功能最大化的目标回归和分类算法的预测精度。统计和机器学习工具箱™函数fscnca和fsrnca执行NCA特征选择与正则化学习特征权重的目标函数最小化措施平均分析训练数据分类或回归损失。

NCA分类特征选择

考虑一个训练集包含的多层次分类问题n观察:

$\begin{array}{l} 年代 = {(x_{我}, y_{我}), 我 = 1, 2, \dots, n} \end{array},$

在哪里 $x_{我} \in ℝ^{p}$ 的特征向量, $y_{我} \in {1, 2, \dots, c}$ 类标签,c类的数量。目的是学习分类器 $f : ℝ^{p} \to {1, 2, \dots, c}$ 接受一个特征向量,使一个预测 $f (x)$ 对于真正的标签 $y$ 的 $x$ 。

考虑随机分类器:

随机选择一个点, $裁判 (x)$ ,从 $年代$ 作为“参考点” $x$
标签 $x$ 使用参考点的标签 $裁判 (x)$ 。

这个方案类似于1-NN分类器的选择参考点的最近邻的新观点 $x$ 。NCA,随机选择参考点和所有点 $年代$ 有一些被选为参考点的概率。的概率 $P (裁判 (x) = x_{j} | 年代)$ 这一点 $x_{j}$ 选择从 $年代$ 的参考点 $x$ 如果高 $x_{j}$ 更接近于 $x$ 测量的距离函数 $d_{w}$ ,在那里

$d_{w} (x_{我}, x_{j}) = \sum_{r = 1}^{p} w_{r}^{2} | x_{我 r} - x_{j r} |,$

和 $w_{r}$ 特征权重。假设

$\begin{array}{l} P (裁判 (x) = x_{j} | 年代) \propto k (d_{w} (x, x_{j})) \end{array},$

在哪里 $k$ 是一些内核或相似性函数,假设大值什么时候 $d_{w} (x, x_{j})$ 很小。假设这是

$k (z) = 经验值 (- \frac{z}{σ}),$

书中建议的那样[1]。的参考点 $x$ 选择从 $年代$ ,所以之和 $P (裁判 (x) = x_{j} | 年代)$ 对所有j必须等于1。因此,它是可能的写作

$\begin{array}{l} P (裁判 (x) = x_{j} | 年代) = \frac{k (d_{w} (x, x_{j}))}{\sum_{j = 1}^{n} k (d_{w} (x, x_{j}))} \end{array} 。$

现在考虑这个随机分类器的分析应用程序,也就是说,预测的标签 $x_{我}$ 使用的数据 ${年代}^{- 我}$ ,训练集 $年代$ 不包括的 $(x_{我}, y_{我})$ 。点的概率 $x_{j}$ 选择的参考点吗 $x_{我}$ 是

$p_{我 j} = P (裁判 (x_{我}) = x_{j} | {年代}^{- 我}) = \frac{k (d_{w} (x_{我}, x_{j}))}{\sum_{j = 1, j \neq 我}^{n} k (d_{w} (x_{我}, x_{j}))} 。$

的概率是平均正确分类的概率分析 $p_{我}$ 正确的随机分类器分类观察我使用 ${年代}^{- 我}$ 。

$\begin{array}{l} p_{我} = \sum_{j = 1, j \neq 我}^{n} P (裁判 (x_{我}) = x_{j} | {年代}^{- 我}) 我 (y_{我} = y_{j}) \end{array} = \sum_{j = 1, j \neq 我}^{n} p_{我 j} y_{我 j},$

在哪里

$y_{我 j} = 我 (y_{我} = y_{j}) = {\begin{matrix} 1 & 如果 y_{我} = y_{j,} \\ 0 & 否则。 \end{matrix}$

正确分类的平均概率分析使用随机分类器可以写成

$F (w) = \frac{1}{n} \sum_{我 = 1}^{n} p_{我} 。$

右边的 $F (w)$ 取决于权向量 $w$ 。社区成分分析的目标是最大化 $F (w)$ 关于 $w$ 。fscnca介绍了使用正则化的目标函数[1]。

$\begin{array}{l} F (w) & = \frac{1}{n} \sum_{我 = 1}^{n} p_{我} - λ \sum_{r = 1}^{p} w_{r}^{2} \\ = \frac{1}{n} \sum_{我 = 1}^{n} \underset{F_{我} (w)}{\underset{︸}{(\sum_{j = 1, j \neq 我}^{n} p_{我 j} y_{我 j} - λ \sum_{r = 1}^{p} w_{r}^{2}]}} \\ = \frac{1}{n} \sum_{我 = 1}^{n} F_{我} (w) \end{array},$

在哪里 $λ$ 是正则化参数。正则化项驱动的许多权重 $w$ 为0。

在选择内核参数 $σ$ 在 $p_{我 j}$ 1,找到权重向量 $w$ 可以表示为以下最小化问题了吗 $λ$ 。

$\hat{w} = \underset{w}{argmin} f (w) = \underset{w}{argmin} \frac{1}{n} \sum_{我 = 1}^{n} f_{我} (w),$

在哪里f(w)= -F(w)和f_我(w)= -F_我(w)。

请注意,

$\frac{1}{n} \sum_{我 = 1}^{n} \sum_{j = 1, j \neq 我}^{n} p_{我 j} = 1,$

和最小的参数不会改变如果你加上一个常数一个目标函数。因此,您可以修改目标函数通过添加常数1。

$\begin{matrix} \hat{w} = \underset{w}{argmin} {1 + f (w)} \\ = \underset{w}{argmin} {\frac{1}{n} \sum_{我 = 1}^{n} \sum_{j = 1, j \neq 我}^{n} p_{我 j} - \frac{1}{n} \sum_{我 = 1}^{n} \sum_{j = 1, j \neq 我}^{n} p_{我 j} y_{我 j} + λ \sum_{r = 1}^{p} w_{r}^{2}} \\ = \underset{w}{argmin} {\frac{1}{n} \sum_{我 = 1}^{n} \sum_{j = 1, j \neq 我}^{n} p_{我 j} (1 - y_{我 j}) + λ \sum_{r = 1}^{p} w_{r}^{2}} \\ = \underset{w}{argmin} {\frac{1}{n} \sum_{我 = 1}^{n} \sum_{j = 1, j \neq 我}^{n} p_{我 j} l (y_{我}, y_{j}) + λ \sum_{r = 1}^{p} w_{r}^{2}}, \end{matrix}$

损失函数被定义为在哪里

$l (y_{我}, y_{j}) = {\begin{matrix} 1 & 如果 y_{我} \neq y_{j,} \\ 0 & 否则。 \end{matrix}$

最低的论点是最小化分类误差的权向量。您可以指定一个定制的损失函数使用LossFunction调用的名称-值对的论点fscnca。

NCA特征选择回归

的fsrnca对回归函数执行NCA特征选择修改。鉴于n观察

$\begin{array}{l} 年代 = {(x_{我}, y_{我}), 我 = 1, 2, \dots, n} \end{array},$

唯一不同的分类问题是响应值 $y_{我} \in ℝ$ 是连续的。在这种情况下,目的是预测的响应 $y$ 给定的训练集 $年代$ 。

考虑随机回归模型:

随机选一个点( $裁判 (x)$ ) $年代$ 作为“参考点” $x$
设置响应值 $x$ 等于参考点的响应值 $裁判 (x)$ 。

再一次的概率 $P (裁判 (x) = x_{j} | 年代)$ 这一点 $x_{j}$ 选择从 $年代$ 的参考点 $x$ 是

$\begin{array}{l} P (裁判 (x) = x_{j} | 年代) = \frac{k (d_{w} (x, x_{j}))}{\sum_{j = 1}^{n} k (d_{w} (x, x_{j}))} \end{array} 。$

现在考虑这个随机回归模型的分析应用程序,也就是说,预测的反应 $x_{我}$ 使用的数据 ${年代}^{- 我}$ ,训练集 $年代$ 不包括的 $(x_{我}, y_{我})$ 。点的概率 $x_{j}$ 选择的参考点吗 $x_{我}$ 是

$p_{我 j} = P (裁判 (x_{我}) = x_{j} | {年代}^{- 我}) = \frac{k (d_{w} (x_{我}, x_{j}))}{\sum_{j = 1, j \neq 我}^{n} k (d_{w} (x_{我}, x_{j}))} 。$

让 ${\hat{y}}_{我}$ 是随机回归模型预测和响应值 $y_{我}$ 的实际响应 $x_{我}$ 。,让 $l : ℝ^{2} \to ℝ$ 是一个损失函数,措施之间的分歧 ${\hat{y}}_{我}$ 和 $y_{我}$ 。的平均值 $l (y_{我}, {\hat{y}}_{我})$ 是

$l_{我} = E (l (y_{我}, {\hat{y}}_{我}) | {年代}^{- 我}) = \sum_{j = 1, j \neq 我}^{n} p_{我 j} l (y_{我}, y_{j}) 。$

添加正则化项之后,目标函数为最小化:

$f (w) = \frac{1}{n} \sum_{我 = 1}^{n} l_{我} + λ \sum_{r = 1}^{p} w_{r}^{2} 。$

默认的损失函数 $l (y_{我}, y_{j})$ 为NCA回归平均绝对偏差,但您可以指定其他损失函数,包括自定义一个使用LossFunction调用的名称-值对的论点fsrnca。

标准化的影响

正则化项驱动无关紧要的权重预测因子为零。在目标函数为NCA分类或回归,只有一个正则化参数 $λ$ 所有的重量。这一事实需要与权重的大小。当特征向量 $x_{我}$ 在 $年代$ 在不同的尺度上,这可能导致不同的尺度和重量是没有意义的。为了避免这种情况,规范预测零均值和标准差单位应用NCA之前。你可以预测使用标准化“标准化”,真的调用的名称-值对的论点fscnca或fsrnca。

选择正则化参数值

通常有必要选择正则化参数的值通过计算随机NCA分类或回归模型的准确性在一个独立的测试集。如果你使用交叉验证,而不是一个测试集,选择 $λ$ 值,通过交叉验证的平均损失最小化。有关示例,请参见调整正则化参数检测功能使用NCA分类和在NCA调整正则化参数回归。

引用

[1],W。,K. Wang, W. Zuo. "Neighborhood Component Feature Selection for High-Dimensional Data." Journal of Computers. Vol. 7, Number 1, January, 2012.

另请参阅

fscnca|fsrnca|FeatureSelectionNCAClassification|FeatureSelectionNCARegression