主要内容gydF4y2Ba

特征提取gydF4y2Ba

什么是特征提取?gydF4y2Ba

特征提取是一组将输入特征映射到新的输出特征的方法。许多特征提取方法都使用无监督学习来提取特征。与一些特征提取方法(如PCA和NNMF)不同,本节中描述的方法可以增加维数(和降低维数)。在内部,这些方法包括优化非线性目标函数。详细信息请参见gydF4y2Ba稀疏滤波算法gydF4y2Ba或gydF4y2Ba重构ICA算法gydF4y2Ba.gydF4y2Ba

特征提取的一个典型应用是在图像中寻找特征。使用这些特征可以提高分类精度。有关示例,请参见gydF4y2Ba特征提取流程gydF4y2Ba.另一个典型的应用是从叠加中提取单个信号,这通常被称为盲源分离。有关示例,请参见gydF4y2Ba提取混合信号gydF4y2Ba.gydF4y2Ba

有两个特征提取函数:gydF4y2Ba黎加gydF4y2Ba而且gydF4y2BasparsefiltgydF4y2Ba.与这些函数相关联的是它们创建的对象:gydF4y2BaReconstructionICAgydF4y2Ba而且gydF4y2BaSparseFilteringgydF4y2Ba.gydF4y2Ba

稀疏滤波算法gydF4y2Ba

稀疏滤波算法从一个数据矩阵开始gydF4y2BaXgydF4y2Ba有gydF4y2BangydF4y2Ba行和gydF4y2BapgydF4y2Ba列。每行代表一个观察结果,每列代表一个测量值。列也称为特征或预测器。然后算法取一个初始随机值gydF4y2BapgydF4y2Ba——- - - - - -gydF4y2Ba问gydF4y2Ba权重矩阵gydF4y2BaWgydF4y2Ba或者使用传递给gydF4y2BaInitialTransformWeightsgydF4y2Ba名称-值对。gydF4y2Ba问gydF4y2Ba要求的功能数量是多少gydF4y2BasparsefiltgydF4y2Ba计算。gydF4y2Ba

该算法试图最小化gydF4y2Ba稀疏滤波目标函数gydF4y2Ba采用标准的有限内存Broyden-Fletcher-Goldfarb-Shanno (LBFGS)准牛顿优化器。见诺西德尔和赖特gydF4y2Ba[2]gydF4y2Ba.此优化器占用到gydF4y2BaIterationLimitgydF4y2Ba迭代。当它执行的步骤的范数小于时,它会更早地停止迭代gydF4y2BaStepTolerancegydF4y2Ba,或计算当前点的梯度范数小于gydF4y2BaGradientTolerancegydF4y2Ba乘以一个标量gydF4y2BaτgydF4y2Ba,在那里gydF4y2Ba

τgydF4y2Ba =gydF4y2Ba 马克斯gydF4y2Ba (gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba 最小值gydF4y2Ba (gydF4y2Ba |gydF4y2Ba fgydF4y2Ba |gydF4y2Ba ,gydF4y2Ba 为gydF4y2Ba ggydF4y2Ba 0gydF4y2Ba 为gydF4y2Ba ∞gydF4y2Ba )gydF4y2Ba )gydF4y2Ba .gydF4y2Ba

|gydF4y2BafgydF4y2Ba|为目标函数的范数gydF4y2Ba 为gydF4y2Ba ggydF4y2Ba 0gydF4y2Ba 为gydF4y2Ba ∞gydF4y2Ba 是初始梯度的无穷范数。gydF4y2Ba

目标函数试图同时为每个数据点获得少量非零特征,并且每个结果特征具有几乎相等的权重。要了解目标函数如何尝试实现这些目标,请参阅Ngiam, Koh, Chen, Bhaskar和NggydF4y2Ba[1]gydF4y2Ba.gydF4y2Ba

通常,通过设置相对较小的值来获得良好的特性gydF4y2BaIterationLimitgydF4y2Ba低至5个,高至几百个。允许优化器继续可能导致过度训练,其中提取的特征不能很好地泛化到新数据。gydF4y2Ba

在构建了gydF4y2BaSparseFilteringgydF4y2Ba对象时,使用gydF4y2Ba变换gydF4y2Ba方法将输入数据映射到新的输出特性。gydF4y2Ba

稀疏滤波目标函数gydF4y2Ba

为了计算一个目标函数,稀疏滤波算法使用以下步骤。目标函数取决于gydF4y2BangydF4y2Ba——- - - - - -gydF4y2BapgydF4y2Ba数据矩阵gydF4y2BaXgydF4y2Ba和一个权重矩阵gydF4y2BaWgydF4y2Ba优化器的变化。权重矩阵gydF4y2BaWgydF4y2Ba有尺寸gydF4y2BapgydF4y2Ba——- - - - - -gydF4y2Ba问gydF4y2Ba,在那里gydF4y2BapgydF4y2Ba是原始特征的数量和gydF4y2Ba问gydF4y2Ba是请求特性的数量。gydF4y2Ba

  1. 计算gydF4y2BangydF4y2Ba——- - - - - -gydF4y2Ba问gydF4y2Ba矩阵gydF4y2BaX * WgydF4y2Ba.应用近似绝对值函数gydF4y2Ba ϕgydF4y2Ba (gydF4y2Ba ugydF4y2Ba )gydF4y2Ba =gydF4y2Ba ugydF4y2Ba 2gydF4y2Ba +gydF4y2Ba 10gydF4y2Ba −gydF4y2Ba 8gydF4y2Ba 的每个元素gydF4y2BaX * WgydF4y2Ba为了得到矩阵gydF4y2BaFgydF4y2Ba.gydF4y2BaϕgydF4y2Ba是一个光滑的非负对称函数,接近于绝对值函数。gydF4y2Ba

  2. 的列归一化gydF4y2BaFgydF4y2Ba通过近似gydF4y2BalgydF4y2Ba2gydF4y2Ba规范。换句话说,定义归一化矩阵gydF4y2Ba FgydF4y2Ba ˜gydF4y2Ba (gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba )gydF4y2Ba 通过gydF4y2Ba

    为gydF4y2Ba FgydF4y2Ba (gydF4y2Ba jgydF4y2Ba )gydF4y2Ba 为gydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ngydF4y2Ba (gydF4y2Ba FgydF4y2Ba (gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba )gydF4y2Ba )gydF4y2Ba 2gydF4y2Ba +gydF4y2Ba 10gydF4y2Ba −gydF4y2Ba 8gydF4y2Ba FgydF4y2Ba ˜gydF4y2Ba (gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba )gydF4y2Ba =gydF4y2Ba FgydF4y2Ba (gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba )gydF4y2Ba /gydF4y2Ba 为gydF4y2Ba FgydF4y2Ba (gydF4y2Ba jgydF4y2Ba )gydF4y2Ba 为gydF4y2Ba .gydF4y2Ba

  3. 的行归一化gydF4y2Ba FgydF4y2Ba ˜gydF4y2Ba (gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba )gydF4y2Ba 通过近似gydF4y2BalgydF4y2Ba2gydF4y2Ba规范。换句话说,定义归一化矩阵gydF4y2Ba FgydF4y2Ba ^gydF4y2Ba (gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba )gydF4y2Ba 通过gydF4y2Ba

    为gydF4y2Ba FgydF4y2Ba ˜gydF4y2Ba (gydF4y2Ba 我gydF4y2Ba )gydF4y2Ba 为gydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 问gydF4y2Ba (gydF4y2Ba FgydF4y2Ba ˜gydF4y2Ba (gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba )gydF4y2Ba )gydF4y2Ba 2gydF4y2Ba +gydF4y2Ba 10gydF4y2Ba −gydF4y2Ba 8gydF4y2Ba FgydF4y2Ba ^gydF4y2Ba (gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba )gydF4y2Ba =gydF4y2Ba FgydF4y2Ba ˜gydF4y2Ba (gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba )gydF4y2Ba /gydF4y2Ba 为gydF4y2Ba FgydF4y2Ba ˜gydF4y2Ba (gydF4y2Ba 我gydF4y2Ba )gydF4y2Ba 为gydF4y2Ba .gydF4y2Ba

    矩阵gydF4y2Ba FgydF4y2Ba ^gydF4y2Ba 转换后的特征矩阵在吗gydF4y2BaXgydF4y2Ba.一次gydF4y2BasparsefiltgydF4y2Ba求权重gydF4y2BaWgydF4y2Ba最小化目标函数gydF4y2BahgydF4y2Ba(见下文),函数将其存储在输出对象中gydF4y2BaMdlgydF4y2Ba在gydF4y2BaMdl。TransformWeights财产,gydF4y2Ba变换gydF4y2Ba函数可以遵循相同的转换步骤将新数据转换为输出特征。gydF4y2Ba

  4. 计算目标函数gydF4y2BahgydF4y2Ba(gydF4y2BaWgydF4y2Ba)作为矩阵的1 -范数gydF4y2Ba FgydF4y2Ba ^gydF4y2Ba (gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba )gydF4y2Ba ,表示矩阵中所有元素的和(在构造上是非负的):gydF4y2Ba

    hgydF4y2Ba (gydF4y2Ba WgydF4y2Ba )gydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 问gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ngydF4y2Ba FgydF4y2Ba ^gydF4y2Ba (gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba )gydF4y2Ba .gydF4y2Ba

  5. 如果你设置gydF4y2BaλgydF4y2Ba严格为正的名称-值对,gydF4y2BasparsefiltgydF4y2Ba使用以下修改的目标函数:gydF4y2Ba

    hgydF4y2Ba (gydF4y2Ba WgydF4y2Ba )gydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 问gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ngydF4y2Ba FgydF4y2Ba ^gydF4y2Ba (gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba )gydF4y2Ba +gydF4y2Ba λgydF4y2Ba ∑gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 问gydF4y2Ba wgydF4y2Ba jgydF4y2Ba TgydF4y2Ba wgydF4y2Ba jgydF4y2Ba .gydF4y2Ba

    在这里,gydF4y2BawgydF4y2BajgydF4y2Ba是gydF4y2BajgydF4y2Ba矩阵的第Th列gydF4y2BaWgydF4y2Ba而且gydF4y2BaλgydF4y2Ba的值gydF4y2BaλgydF4y2Ba.这一项的作用是缩小权重gydF4y2BaWgydF4y2Ba.如果你画出gydF4y2BaWgydF4y2Ba作为形象,具有正面意义gydF4y2BaλgydF4y2Ba这些图像与相同的零图像相比显得平滑gydF4y2BaλgydF4y2Ba.gydF4y2Ba

重构ICA算法gydF4y2Ba

重构独立分量分析(RICA)算法基于最小化目标函数。该算法将输入数据映射到输出特征。gydF4y2Ba

ICA源模型如下所示。每一个观察gydF4y2BaxgydF4y2Ba是由一个随机向量生成的gydF4y2Ba年代gydF4y2Ba根据gydF4y2Ba

xgydF4y2Ba =gydF4y2Ba μgydF4y2Ba +gydF4y2Ba 一个gydF4y2Ba 年代gydF4y2Ba .gydF4y2Ba

  • xgydF4y2Ba列向量是长度吗gydF4y2BapgydF4y2Ba.gydF4y2Ba

  • μgydF4y2Ba列向量是长度吗gydF4y2BapgydF4y2Ba表示一个常数项。gydF4y2Ba

  • 年代gydF4y2Ba列向量是长度吗gydF4y2Ba问gydF4y2Ba它的元素均值为零,单位方差是统计上相互独立的随机变量。gydF4y2Ba

  • 一个gydF4y2Ba混合矩阵的大小gydF4y2BapgydF4y2Ba——- - - - - -gydF4y2Ba问gydF4y2Ba.gydF4y2Ba

你可以在gydF4y2Ba黎加gydF4y2Ba估计gydF4y2Ba一个gydF4y2Ba根据对gydF4y2BaxgydF4y2Ba.看到gydF4y2Ba提取混合信号gydF4y2Ba.gydF4y2Ba

RICA算法从一个数据矩阵开始gydF4y2BaXgydF4y2Ba有gydF4y2BangydF4y2Ba行和gydF4y2BapgydF4y2Ba由观察结果组成的列gydF4y2BaxgydF4y2Ba我gydF4y2Ba:gydF4y2Ba

XgydF4y2Ba =gydF4y2Ba [gydF4y2Ba xgydF4y2Ba 1gydF4y2Ba TgydF4y2Ba xgydF4y2Ba 2gydF4y2Ba TgydF4y2Ba ⋮gydF4y2Ba xgydF4y2Ba ngydF4y2Ba TgydF4y2Ba ]gydF4y2Ba .gydF4y2Ba

每行代表一个观察结果,每列代表一个测量值。列也称为特征或预测器。然后算法取一个初始随机值gydF4y2BapgydF4y2Ba——- - - - - -gydF4y2Ba问gydF4y2Ba权重矩阵gydF4y2BaWgydF4y2Ba或者使用传递给gydF4y2BaInitialTransformWeightsgydF4y2Ba名称-值对。gydF4y2Ba问gydF4y2Ba要求的功能数量是多少gydF4y2Ba黎加gydF4y2Ba计算。权重矩阵gydF4y2BaWgydF4y2Ba由列组成gydF4y2BawgydF4y2Ba我gydF4y2Ba的大小gydF4y2BapgydF4y2Ba1:gydF4y2Ba

WgydF4y2Ba =gydF4y2Ba [gydF4y2Ba wgydF4y2Ba 1gydF4y2Ba wgydF4y2Ba 2gydF4y2Ba ...gydF4y2Ba wgydF4y2Ba 问gydF4y2Ba ]gydF4y2Ba .gydF4y2Ba

该算法试图最小化gydF4y2Ba重建ICA目标函数gydF4y2Ba采用标准的有限内存Broyden-Fletcher-Goldfarb-Shanno (LBFGS)准牛顿优化器。见诺西德尔和赖特gydF4y2Ba[2]gydF4y2Ba.此优化器占用到gydF4y2BaIterationLimitgydF4y2Ba迭代。当它执行的步骤的范数小于时,它就停止迭代gydF4y2BaStepTolerancegydF4y2Ba,或计算当前点的梯度范数小于gydF4y2BaGradientTolerancegydF4y2Ba乘以一个标量gydF4y2BaτgydF4y2Ba,在那里gydF4y2Ba

τgydF4y2Ba =gydF4y2Ba 马克斯gydF4y2Ba (gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba 最小值gydF4y2Ba (gydF4y2Ba |gydF4y2Ba fgydF4y2Ba |gydF4y2Ba ,gydF4y2Ba 为gydF4y2Ba ggydF4y2Ba 0gydF4y2Ba 为gydF4y2Ba ∞gydF4y2Ba )gydF4y2Ba )gydF4y2Ba .gydF4y2Ba

|gydF4y2BafgydF4y2Ba|为目标函数的范数gydF4y2Ba 为gydF4y2Ba ggydF4y2Ba 0gydF4y2Ba 为gydF4y2Ba ∞gydF4y2Ba 是初始梯度的无穷范数。gydF4y2Ba

目标函数试图获得一个接近标准正交的权重矩阵,使元素的和最小gydF4y2BaggydF4y2Ba(gydF4y2BaXWgydF4y2Ba),gydF4y2BaggydF4y2Ba函数(下面描述)是否以元素方式应用于gydF4y2BaXWgydF4y2Ba.要了解目标函数如何尝试实现这些目标,请参阅Le, Karpenko, Ngiam和NggydF4y2Ba[3]gydF4y2Ba.gydF4y2Ba

在构建了gydF4y2BaReconstructionICAgydF4y2Ba对象时,使用gydF4y2Ba变换gydF4y2Ba方法将输入数据映射到新的输出特性。gydF4y2Ba

重建ICA目标函数gydF4y2Ba

目标函数使用对比函数,可以使用gydF4y2BaContrastFcngydF4y2Ba名称-值对。对比函数是一个平滑的凸函数,类似于绝对值。缺省情况下,对比度函数为gydF4y2Ba ggydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba 日志gydF4y2Ba (gydF4y2Ba coshgydF4y2Ba (gydF4y2Ba 2gydF4y2Ba xgydF4y2Ba )gydF4y2Ba )gydF4y2Ba .有关其他可用的对比度函数,请参见gydF4y2BaContrastFcngydF4y2Ba.gydF4y2Ba

对于一个gydF4y2BangydF4y2Ba——- - - - - -gydF4y2BapgydF4y2Ba数据矩阵gydF4y2BaXgydF4y2Ba而且gydF4y2Ba问gydF4y2Ba输出特征,带有正则化参数gydF4y2BaλgydF4y2Ba的值gydF4y2BaλgydF4y2Ba名值对,目标函数的形式gydF4y2BapgydF4y2Ba——- - - - - -gydF4y2Ba问gydF4y2Ba矩阵gydF4y2BaWgydF4y2Ba是gydF4y2Ba

hgydF4y2Ba =gydF4y2Ba λgydF4y2Ba ngydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ngydF4y2Ba 为gydF4y2Ba WgydF4y2Ba WgydF4y2Ba TgydF4y2Ba xgydF4y2Ba 我gydF4y2Ba −gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba 为gydF4y2Ba 2gydF4y2Ba 2gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba ngydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ngydF4y2Ba ∑gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 问gydF4y2Ba σgydF4y2Ba jgydF4y2Ba ggydF4y2Ba (gydF4y2Ba wgydF4y2Ba jgydF4y2Ba TgydF4y2Ba xgydF4y2Ba 我gydF4y2Ba )gydF4y2Ba

的gydF4y2BaσgydF4y2BajgydF4y2Ba都是±1的已知常数。当gydF4y2BaσgydF4y2BajgydF4y2Ba= + 1gydF4y2Ba,使目标函数最小gydF4y2BahgydF4y2Ba的直方图gydF4y2Ba wgydF4y2Ba jgydF4y2Ba TgydF4y2Ba xgydF4y2Ba 我gydF4y2Ba 在0处急剧达到峰值(超高斯)。当gydF4y2BaσgydF4y2BajgydF4y2Ba= 1gydF4y2Ba,使目标函数最小gydF4y2BahgydF4y2Ba的直方图gydF4y2Ba wgydF4y2Ba jgydF4y2Ba TgydF4y2Ba xgydF4y2Ba 我gydF4y2Ba 在0附近更平坦(亚高斯)。指定gydF4y2BaσgydF4y2BajgydF4y2Ba值使用gydF4y2Ba黎加gydF4y2BaNonGaussianityIndicatorgydF4y2Ba名称-值对。gydF4y2Ba

目标函数gydF4y2BahgydF4y2Ba什么时候可以有一个伪最小值为零gydF4y2BaλgydF4y2Ba是零。因此,gydF4y2Ba黎加gydF4y2Ba最小化gydF4y2BahgydF4y2Ba在gydF4y2BaWgydF4y2Ba归一化为1。换句话说,就是每一列gydF4y2BawgydF4y2BajgydF4y2Ba的gydF4y2BaWgydF4y2Ba是由列向量定义的gydF4y2BavgydF4y2BajgydF4y2Ba通过gydF4y2Ba

wgydF4y2Ba jgydF4y2Ba =gydF4y2Ba vgydF4y2Ba jgydF4y2Ba vgydF4y2Ba jgydF4y2Ba TgydF4y2Ba vgydF4y2Ba jgydF4y2Ba +gydF4y2Ba 10gydF4y2Ba −gydF4y2Ba 8gydF4y2Ba .gydF4y2Ba

黎加gydF4y2Ba的最小值gydF4y2BavgydF4y2BajgydF4y2Ba.得到的最小矩阵gydF4y2BaWgydF4y2Ba提供从输入数据的转换gydF4y2BaXgydF4y2Ba输出特征gydF4y2BaXWgydF4y2Ba.gydF4y2Ba

参考文献gydF4y2Ba

[1] Ngiam, Jiquan,陈正浩,Sonia A. Bhaskar, Pang W. Koh和Andrew Y. Ng。“稀疏过滤。”gydF4y2Ba神经信息处理系统研究进展。gydF4y2BaVol. 24, 2011, pp. 1125-1133。gydF4y2Bahttps://papers.nips.cc/paper/4334-sparse-filtering.pdfgydF4y2Ba.gydF4y2Ba

[2]诺西德尔,J.和S. J.赖特。gydF4y2Ba数值优化gydF4y2Ba,第二版。施普林格系列运筹学,施普林格Verlag, 2006。gydF4y2Ba

[3] Le, Quoc V., Alexandre Karpenko, Jiquan Ngiam和Andrew Y. Ng。“基于重构成本的高效过完备特征学习ICA”。gydF4y2Ba神经信息处理系统研究进展。gydF4y2BaVol. 24, 2011, pp. 1017-1025。gydF4y2Bahttps://papers.nips.cc/paper/4467-ica-with-reconstruction-cost-for-efficient-overcomplete-feature-learning.pdfgydF4y2Ba.gydF4y2Ba

另请参阅gydF4y2Ba

|gydF4y2Ba|gydF4y2Ba|gydF4y2Ba

相关的话题gydF4y2Ba