主要内容

fscnca

特征选择使用邻域成分分析进行分类

描述

例子

mdl= fscnca (XY使用中的预测器进行特征选择以进行分类X和反应Y

fscnca使用对角自适应的正则化邻域分量分析(NCA)来学习特征权值。

例子

mdl= fscnca (XY名称,值使用由一个或多个名称-值对参数指定的附加选项执行分类特性选择。

例子

全部折叠

生成玩具数据,其中响应变量依赖于第3、第9和第15个预测因子。

rng (0,“旋风”);%的再现性N = 100;X =兰德(N, 20);y = 1 (N, 1);y(X(:,3).*X(:,9)./X(:,15) < 0.4) = 1;

拟合邻域成分分析模型进行分类。

mdl = fscnca (X, y,“规划求解”“sgd”“详细”1);
o调整初始学习率:NumTuningIterations = 20,TuningSubsetSize = 100  |===============================================| | | |调子集学习| | ITER | |娱乐价值率  | |===============================================| | 1 | -3.755936 e-01 e-01 | 2.000000 | | 2 | -3.950971 e-01 e-01 | 4.000000 | | 3 | -4.311848 e-01 e-01 | 8.000000 | | 4 | -4.903195 e-01 | 1.600000 e + 00 | | 5 |-5.630190 e-01 | 3.200000 e + 00 | | 6 | -6.166993 e-01 | 6.400000 e + 00 | | 7 | -6.255669 e-01 | 1.280000 e + 01 | | 8 | -6.255669 e-01 | 1.280000 e + 01 | | 9 | -6.255669 e-01 | 1.280000 e + 01 | | 10 | -6.255669 e-01 | 1.280000 e + 01 | | 11 | -6.255669 e-01 | 1.280000 e + 01 | | 12 | -6.255669 e-01 | 1.280000 e + 01 | | 13 | -6.255669 e-01 | 1.280000 e + 01 | | 14 |e-01 -6.279210 | 2.560000 e + 01 | | 15 | -6.279210 e-01 | 2.560000 e + 01 | | 16 | -6.279210 e-01 | 2.560000 e + 01 | | 17 | -6.279210 e-01 | 2.560000 e + 01 | | | 18 -6.279210 e-01 | 2.560000 e + 01 | | e-01 19 | -6.279210 | 2.560000 e + 01 | | 20 e-01 | -6.279210 | 2.560000 e + 01 | o解决= SGD MiniBatchSize = 10,PassLimit = 5  |==========================================================================================| | 通过| ITER | AVG MINIBATCH | AVG MINIBATCH |规范一步学习| | | | | |娱乐价值规范研究生| |率  | |==========================================================================================| | 0 | 9 e-01 | -5.658450 | 4.492407 e-02 |9.290605e-01 | 2.560000e+01 | | 1 | 19 | -6.131382e-01 | 4.923625e-02 | 7.421541e-01 | 1.280000e+01 | | 2 | 29 | -6.225056e-01 | 3.738784e-02 | 3.277588e-01 | 8.533333e+00 | | 3 | 39 | -6.233366e-01 | 4.947901e-02 | 5.431133e-01 | 6.400000e+00 | | 4 | 49 | -6.238576e-01 | 3.445763e-02 | 2.946188e-01 | 5.120000e+00 | Two norm of the final step = 2.946e-01 Relative two norm of the final step = 6.588e-02, TolX = 1.000e-06 EXIT: Iteration or pass limit reached.

绘制选定的特征。不相关特征的权值应该接近于零。

图()图(mdl。FeatureWeights,“罗”网格)包含(“功能指数”) ylabel (“功能重量”

图中包含一个轴对象。axis对象包含一个类型为line的对象。

fscnca正确检测相关特征。

加载示例数据

负载ovariancancer;谁
名称大小字节类属性grp 216x1 25056 cell obs 216x4000 3456000 single

本例使用WCX2蛋白阵列生成的高分辨率卵巢癌数据集。经过一些预处理步骤后,数据集有两个变量:奥林匹克广播服务公司grp.的奥林匹克广播服务公司变量由216个观测值和4000个特征组成。中的每个元素grp定义对应行所属的组奥林匹克广播服务公司属于。

将数据分为训练集和测试集

使用cvpartition将数据分为大小为160的训练集和大小为56的测试集。训练集和测试集的分组比例大致相同grp

rng (1);%的再现性本量利= cvpartition (grp,“坚持”56)
cvp = hold out cross validation partition nummobations: 216 NumTestSets: 1 TrainSize: 160 TestSize: 56
奥林匹克广播服务公司(Xtrain = cvp.training:);ytrain = grp (cvp.training:);奥林匹克广播服务公司(Xtest = cvp.test:);欧美= grp (cvp.test:);

确定特征选择是否必要

不拟合计算泛化误差。

nca = fscnca (Xtrain ytrain,“FitMethod”“没有”);L =损失(nca, Xtest欧美)
L = 0.0893

该选项使用中提供的初始特征权值(在本例中为默认特征权值)计算邻域成分分析(NCA)特征选择模型的泛化误差fscnca

拟合无正则化参数的NCA (Lambda = 0)

nca = fscnca (Xtrain ytrain,“FitMethod”“准确”“λ”0,...“规划求解”“sgd”“标准化”,真正的);L =损失(nca, Xtest欧美)
L = 0.0714

对损失值的改进表明特征选择是一种很好的方法。调优 λ 价值通常会改善结果。

使用五倍交叉验证调优NCA的正则化参数

调优 λ 意味着找到 λ 产生最小分类损失的值。调优 λ 使用交叉验证:

1.将训练数据分成5次,提取验证(测试)集的个数。对于每一个褶皱,cvpartition指定五分之四的数据作为训练集,五分之一的数据作为测试集。

本量利= cvpartition (ytrain,“kfold”5);numvalidsets = cvp.NumTestSets;

分配 λ 值,并创建一个数组来存储损失函数值。

n =长度(ytrain);lambdavals = linspace(0, 20日20)/ n;lossvals = 0(长度(lambdavals), numvalidsets);

2.训练每个人的NCA模型 λ 值,使用每个折叠中的训练集。

3.使用NCA模型计算折叠中相应测试集的分类损失。记录损失值。

4.对所有的折叠重复这个过程 λ 值。

i = 1:长度(lambdavals)k = 1:numvalidsets X = Xtrain(cvp.training(k),:);y = ytrain (cvp.training (k):);Xvalid = Xtrain (cvp.test (k):);yvalid = ytrain (cvp.test (k):);nca = fscnca (X, y,“FitMethod”“准确”...“规划求解”“sgd”“λ”lambdavals(我),...“IterationLimit”30岁的“GradientTolerance”1的军医,...“标准化”,真正的);lossvals (i (k) =损失(nca, Xvalid yvalid,“LossFunction”“classiferror”);结束结束

计算从每个折叠中获得的平均损失 λ 价值。

meanloss =意味着(lossvals, 2);

画出平均损失值与 λ 值。

图()图(lambdavals meanloss,“ro - - - - - -”)包含(“λ”) ylabel (“损失(MSE)”网格)

图中包含一个轴对象。axis对象包含一个类型为line的对象。

找到与最小平均损失相对应的最佳lambda值。

[~, idx] = min (meanloss)查找索引
idx = 2
bestlambda = lambdavals (idx)找到最好的lambda值
bestlambda = 0.0066
bestloss = meanloss (idx)
bestloss = 0.0313

最好地将nca模型应用于所有数据 λ 并绘制特征权重

使用求解器lbfgs并标准化预测值。

nca = fscnca (Xtrain ytrain,“FitMethod”“准确”“规划求解”“sgd”...“λ”bestlambda,“标准化”,真的,“详细”1);
o调整初始学习率:NumTuningIterations = 20,TuningSubsetSize = 100  |===============================================| | | |调子集学习| | ITER | |娱乐价值率  | |===============================================| | 1 e + 01 | 2.403497 | 2.000000 e-01 | | 2 | 2.275050 e + 01 | 4.000000 e-01 | | 3 | 2.036845 e + 01 | 8.000000 e-01 | | 4 | 1.627647 e + 01 | 1.600000 e + 00 | | 5 |1.023512 e + 01 | 3.200000 e + 00 | | 6 | 3.864283 e + 6.400000 e + 00 00 | | | 7 e-01 | 4.743816 | 1.280000 e + 01 | | 8 | -7.260138 e-01 | 2.560000 e + 01 | | 9 | -7.260138 e-01 | 2.560000 e + 01 | | 10 | -7.260138 e-01 | 2.560000 e + 01 | | 11 | -7.260138 e-01 | 2.560000 e + 01 | | 12 | -7.260138 e-01 | 2.560000 e + 01 | | 13 | -7.260138 e-01 | 2.560000 e + 01 | | 14 | -7.260138 e-01 |2.560000e+01 | | 15 | -7.260138e-01 | 2.560000e+01 | | 16 | -7.260138e-01 | 2.560000e+01 | | 17 | -7.260138e-01 | 2.560000e+01 | | 18 | -7.260138e-01 | 2.560000e+01 | | 19 | -7.260138e-01 | 2.560000e+01 | | 20 | -7.260138e-01 | 2.560000e+01 | o Solver = SGD, MiniBatchSize = 10, PassLimit = 5 |==========================================================================================| | PASS | ITER | AVG MINIBATCH | AVG MINIBATCH | NORM STEP | LEARNING | | | | FUN VALUE | NORM GRAD | | RATE | |==========================================================================================| | 0 | 9 | 4.016078e+00 | 2.835465e-02 | 5.395984e+00 | 2.560000e+01 | | 1 | 19 | -6.726156e-01 | 6.111354e-02 | 5.021138e-01 | 1.280000e+01 | | 1 | 29 | -8.316555e-01 | 4.024186e-02 | 1.196031e+00 | 1.280000e+01 | | 2 | 39 | -8.838656e-01 | 2.333416e-02 | 1.225834e-01 | 8.533333e+00 | | 3 | 49 | -8.669034e-01 | 3.413162e-02 | 3.421902e-01 | 6.400000e+00 | | 3 | 59 | -8.906936e-01 | 1.946295e-02 | 2.232511e-01 | 6.400000e+00 | | 4 | 69 | -8.778630e-01 | 3.561290e-02 | 3.290645e-01 | 5.120000e+00 | | 4 | 79 | -8.857135e-01 | 2.516638e-02 | 3.902979e-01 | 5.120000e+00 | Two norm of the final step = 3.903e-01 Relative two norm of the final step = 6.171e-03, TolX = 1.000e-06 EXIT: Iteration or pass limit reached.

绘制特征权重。

图()(nca情节。FeatureWeights,“罗”)包含(“功能指数”) ylabel (“功能重量”网格)

图中包含一个轴对象。axis对象包含一个类型为line的对象。

使用特征权重和相对阈值选择特征。

托尔= 0.02;selidx = (nca找到。FeatureWeights> tol*max(1,max(nca.FeatureWeights)))
selidx =72×1565 611 654 681 737 743 744 750 754 839⋮

使用测试集计算分类损失。

L =损失(nca, Xtest欧美)
L = 0.0179

使用选定的特征对观察进行分类

从训练数据中提取特征权重大于0的特征。

特点= Xtrain (:, selidx);

应用支持向量机分金宝app类器使用选定的特征到缩减的训练集。

svmMdl = fitcsvm(特性,ytrain);

评估训练有素的分类器对未用于选择特征的测试数据的准确性。

L =损失(svmMdl Xtest (:, selidx)、欧美)
L =0

输入参数

全部折叠

预测变量值,指定为n——- - - - - -p矩阵,n观察的次数是多少p为预测变量的数量。

数据类型:|

类标签,指定为类别向量、逻辑向量、数字向量、字符串数组、长度为字符向量的单元格数组n,或字符矩阵n行,n为观察次数。元素或行Y类标签是否与行对应X(观察).

数据类型:||逻辑|字符|字符串|细胞|分类

名称-值参数

指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家

例子:“规划求解”,“sgd”、“重量”,0.0003 W,“λ”指定求解器为随机梯度下降,观测权值为向量中的值W,并将正则化参数设置为0.0003。
合适的选项

全部折叠

模型拟合方法,指定为逗号分隔对组成“FitMethod”以及以下其中之一:

  • “准确”-使用所有数据进行拟合。

  • “没有”——不合适。使用此选项,使用调用fscnca时提供的初始特征权重来评估NCA模型的泛化误差。

  • “平均”—将数据划分为多个分区(子集),使用确切的方法,并返回特征权重的平均值。属性指定分区的数目NumPartitions名称-值对的论点。

例子:“FitMethod”、“没有”

用于分割数据的分区数目“FitMethod”、“平均”选项,指定为逗号分隔的对,由“NumPartitions”和2到之间的整数值n,在那里n为观察次数。

例子:“NumPartitions”,15

数据类型:|

正则化参数防止过拟合,指定为逗号分隔对组成“λ”一个非负标量。

作为观察的次数n增加,过拟合的机会减少,所需的正则化量也减少。看到识别相关特征进行分类调整正则化参数检测特征使用NCA分类学习如何调优正则化参数。

例子:“λ”,0.002

数据类型:|

内核的宽度,指定为由逗号分隔的对组成“LengthScale”一个正的实标量。

当所有预测器在同一尺度上时,长度尺度值为1是合理的。如果预测因子在X是非常不同的大小,然后考虑标准化的预测值使用“标准化”,真的和设置“LengthScale”,1

例子:“LengthScale”,1.5

数据类型:|

初始特征权重,指定为逗号分隔对,由“InitialFeatureWeights”和一个p实正量的- × 1向量p为训练数据中预测器的个数。

优化特征权重的正则化目标函数是非凸的。因此,使用不同的初始特征权重可以得到不同的结果。将所有初始功能权重设置为1通常很有效,但在某些情况下,随机初始化使用兰特(p, 1)可以提供更好质量的解决方案。金宝搏官方网站

数据类型:|

观察权值,指定为逗号分隔的对,由“ObservationWeights”和一个n实正量的- × 1向量。使用观测权值来指定某些观测值比其他观测值更重要。默认权重对所有的观测值都赋予同等的重要性。

数据类型:|

每个类的先验概率,指定为逗号分隔对,由“之前”以及以下其中之一:

  • “经验”- - - - - -fscnca从类别频率中获得先验类别概率。

  • “统一”- - - - - -fscnca设置所有类的概率相等。

  • 结构有两个字段:

    • ClassProbs-职业概率向量。如果这些数值的总和大于1,fsnca使它们相加为1。

    • 一会-类名对应于类的概率ClassProbs

例子:“前”、“制服”

用于标准化预测器数据的指标,指定为逗号分隔对,由“标准化”,要么真正的.有关更多信息,请参见标准化的影响

例子:“标准化”,真的

数据类型:逻辑

用于显示收敛摘要的详细程度指示器,指定为逗号分隔对组成“详细”以及以下其中之一:

  • 0 -没有收敛总结

  • 1 -收敛总结,包括梯度范数和目标函数值

  • > 1 -更多的收敛信息,取决于拟合算法

    当使用“minibatch-lbfgs”求解器和详细级> 1,收敛信息包括迭代从中间小批LBFGS拟合的日志。

例子:“详细”,1

数据类型:|

用于估计特征权重的求解器类型,指定为由逗号分隔的对组成“规划求解”以及以下其中之一:

  • “lbfgs”-有限内存Broyden-Fletcher-Goldfarb-Shanno (LBFGS)算法

  • “sgd”-随机梯度下降(SGD)算法

  • “minibatch-lbfgs”-随机梯度下降与LBFGS算法应用于小批量

默认是“lbfgs”n≤1000,“sgd”n> 1000。

例子:“规划求解”、“minibatch-lbfgs”

损失函数,指定为逗号分隔对组成“LossFunction”下面是其中之一。

  • “classiferror”——错误分类错误

    l y y j 1 如果 y y j 0 否则

  • lossfun-自定义丢失功能处理。损失函数是这样的形式。

    函数L = lossfun (Yu青年志愿)损失计算%...
    是一个u1向量和青年志愿是一个v1的向量。l是一个u——- - - - - -v损失值矩阵L (i, j)损失值是多少Yu(我)青年志愿(j)

最小化的目标函数包括损失函数lyyj如下:

f w 1 n 1 n j 1 j n p j l y y j + λ r 1 p w r 2

在哪里w为特征权值向量,n是观察的次数,和p为预测变量的数量。pijxj参考点是什么x.有关详细信息,请参见用于分类的NCA特征选择

例子:LossFunction, @lossfun

用于目标函数和梯度计算的内存大小,以MB为单位,指定为逗号分隔对组成“CacheSize”和一个整数。

例子:“CacheSize”,1500 mb

数据类型:|

LBFGS选项

全部折叠

历史缓冲区的大小为Hessian近似“lbfgs”解算器,指定为逗号分隔的对,由“HessianHistorySize”一个正整数。在每次迭代中,函数使用最新的HessianHistorySize迭代来建立逆Hessian的近似。

例子:“HessianHistorySize”,20

数据类型:|

的初始步长“lbfgs”解算器,指定为逗号分隔的对,由“InitialStepSize”一个正的实标量。默认情况下,该函数自动确定初始步长。

数据类型:|

行搜索方法,指定为逗号分隔对组成“LineSearchMethod”以及以下其中之一:

  • “weakwolfe”-弱沃尔夫线搜索

  • “strongwolfe”-强沃尔夫线搜索

  • “回溯”-回溯线搜索

例子:“LineSearchMethod”、“回溯”

最大行搜索迭代次数,指定为逗号分隔对组成“MaxLineSearchIterations”一个正整数。

例子:“MaxLineSearchIterations”,25岁

数据类型:|

求解器梯度范数的相对收敛容限lbfgs,指定为逗号分隔的对,由“GradientTolerance”一个正的实标量。

例子:“GradientTolerance”,0.000002

数据类型:|

SGD选项

全部折叠

初始学习率为“sgd”解算器,指定为逗号分隔的对,由“InitialLearningRate”一个正的实标量。

当使用求解器类型“sgd”时,学习率从指定的值开始随着迭代次数递减“InitialLearningRate”

默认的“汽车”意味着初始学习率是通过对小数据子集进行实验来确定的。使用NumTuningIterations参数的名称-值对指定自动调优初始学习率的迭代次数。使用TuningSubsetSize名称-值对参数,指定用于自动调优初始学习率的观察数。

解算器类型“minibatch-lbfgs”,您可以设置“InitialLearningRate”一个非常高的值。在这种情况下,该函数将LBFGS分别应用于每个小批,并使用前一个小批的初始特征权重。

为了确保所选的初始学习率随着每次迭代而降低目标值,绘制迭代客观的保存在mdl。FitInfo财产。

你可以使用改装方法“InitialFeatureWeights”等于mdl。FeatureWeights从当前解决方案开始并运行额外的迭代

例子:“InitialLearningRate”,0.9

数据类型:|

在每批中使用的观察数“sgd”解算器,指定为逗号分隔的对,由“MiniBatchSize”一个正整数,从1到n

例子:“MiniBatchSize”,25岁

数据类型:|

通过所有的最大次数n观察对解算器“sgd”,指定为逗号分隔的对,由“PassLimit”一个正整数。所有数据的每一遍被称为epoch。

例子:“PassLimit”,10

数据类型:|

显示聚合摘要的批次的频率“sgd”解算器,指定为逗号分隔的对,由“NumPrint”一个正整数。这个论点适用于“详细”值大于0。NumPrint对命令行显示的收敛摘要的每一行进行mini-batch处理。

例子:“NumPrint”,5

数据类型:|

的调优迭代次数“sgd”解算器,指定为逗号分隔的对,由“NumTuningIterations”一个正整数。此选项仅对“InitialLearningRate”、“汽车”

例子:“NumTuningIterations”,15

数据类型:|

用于调优初始学习率的观察数,指定为逗号分隔对组成“TuningSubsetSize”和一个正整数,从1到n.此选项仅对“InitialLearningRate”、“汽车”

例子:“TuningSubsetSize”,25岁

数据类型:|

SGD或LBFGS选项

全部折叠

最大迭代次数,由逗号分隔对组成“IterationLimit”一个正整数。缺省情况下,SGD为10000,LBFGS和mini-batch LBFGS为1000。

每次批处理都是一次迭代。所有数据的每一次传递都是一个纪元。如果将数据分成k小批量,则每个epoch等价于k迭代。

例子:“IterationLimit”,250年

数据类型:|

收敛公差上的步长,指定为逗号分隔对组成“StepTolerance”一个正的实标量。的“lbfgs”求解器使用绝对步长公差,并且“sgd”求解器使用相对步长公差。

例子:“StepTolerance”,0.000005

数据类型:|

Mini-Batch LBFGS选项

全部折叠

每个小批LBFGS步骤的最大迭代次数,指定为逗号分隔对组成“MiniBatchLBFGSIterations”一个正整数。

例子:“MiniBatchLBFGSIterations”,15

小批LBFGS算法是SGD和LBFGS算法的结合。因此,适用于SGD和LBFGS求解器的所有名称-值对参数也适用于迷你批处理LBFGS算法。

数据类型:|

输出参数

全部折叠

邻域成分分析模型进行分类,返回为FeatureSelectionNCAClassification对象。

介绍了R2016b