kfoldEdge

分类边观察不用于培训

扩展所有的页面

语法

e = kfoldEdge (CVMdl)

e = kfoldEdge (CVMdl、名称、值)

描述

例子

e= kfoldEdge (CVMdl)返回旨在分类的边缘旨在获得的、二进制线性分类模型CVMdl。也就是说,每一个褶皱,kfoldEdge估计的分类边观察,它伸出火车时使用其他观测。

e包含每个正规化的分类边缘强度的线性分类模型组成CVMdl。

例子

e= kfoldEdge (CVMdl,名称,值)使用指定的一个或多个额外的选项名称,值对参数。例如,表示使用哪个折叠边缘计算。

输入参数

全部展开

`CVMdl`- - - - - -旨在,二进制线性分类模型
`ClassificationPartitionedLinear`模型对象

旨在,二进制线性分类模型,指定为一个ClassificationPartitionedLinear模型对象。您可以创建一个ClassificationPartitionedLinear模型使用fitclinear并指定任何一个交叉验证的名称-值对参数,例如,CrossVal。

获得的估计,kfoldEdge适用相同的数据用于旨在线性分类模型(X和Y)。

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

`折叠`- - - - - -折叠使用classification-score预测指标
`1:CVMdl.KFold`(默认)|正整数的数值向量

折叠classification-score预测指标使用,指定为逗号分隔组成的“折叠”和正整数的数值向量。的元素折叠必须从1通过CVMdl.KFold。

例子:“折叠”,[1 4 10]

数据类型:单|双

`模式`- - - - - -边缘聚合级别
`“平均”`(默认)|`“个人”`

边缘聚合级别,指定为逗号分隔组成的“模式”和“平均”或“个人”。

价值	描述
`“平均”`	返回平均分类边折叠
`“个人”`	返回分类为每个折边

例子:“模式”,“个人”

输出参数

全部展开

`e`——旨在分类边
数字标量| |数字矩阵数值向量

旨在分类的边缘,作为一个数字返回标量、向量或矩阵。

让l正规化的数量优势在旨在模型(即,l是元素个数(CVMdl.Trained {1} .Lambda)),F被折叠的数量(存储在CVMdl.KFold)。

如果模式是“平均”,然后e是1 -l向量。e (j)的平均分类优势是所有旨在模型的折叠,使用正则化力量j。
否则,e是一个F——- - - - - -l矩阵。e (我,j)分类边缘褶皱吗我旨在模型,利用正则化的力量j。

估计e,kfoldEdge使用创建的数据CVMdl(见X和Y)。

例子

全部展开

估计k倍交叉验证边缘

打开生活的脚本

加载NLP数据集。

负载nlpdata

X是一个稀疏矩阵的预测数据,Y是一个分类向量类的标签。有两个以上的类的数据。

模型应该确定是否这个词项在一个web页面的统计和机器学习工具箱™文档。所以,确定对应的标签统计和机器学习的工具箱™文档web页面。

Ystats = Y = =“统计数据”;

旨在一个二进制,线性分类模型,该模型可以确定是否这个词项在文档的web页面的统计和机器学习工具箱™文档。

rng (1);%的再现性Ystats CVMdl = fitclinear (X,“CrossVal”,“上”);

CVMdl是一个ClassificationPartitionedLinear模型。默认情况下,该软件实现了10倍交叉验证。你可以改变折叠使用的数量“KFold”名称-值对的论点。

估计的平均值out-of-fold边缘。

e = kfoldEdge (CVMdl)

e = 8.1243

或者,您可以获得per-fold边缘通过指定名称-值对“模式”,“个人”在kfoldEdge。

特征选择使用k倍的边缘

打开生活的脚本

进行特征选择的方法之一是比较k倍边缘从多个模型。仅仅根据这一标准,最高的分类器边缘是最好的分类器。

加载NLP的数据集,数据的预处理估计k-Fold边缘交叉验证。

负载nlpdataYstats = Y = =“统计数据”;X = X ';

创建这两个数据集:

fullX包含所有预测。
partX包含预测的半随机选取的。

rng (1);%的再现性p =大小(X, 1);%的预测数量halfPredIdx = randsample (p,装天花板(0.5 * p));fullX = X;partX = X (halfPredIdx:);

旨在两个二进制线性分类模型:一个使用所有的预测和使用预测的一半。使用SpaRSA优化目标函数,并表明,观察对应列。

CVMdl = fitclinear (fullX Ystats,“CrossVal”,“上”,“规划求解”,“sparsa”,…“ObservationsIn”,“列”);PCVMdl = fitclinear (partX Ystats,“CrossVal”,“上”,“规划求解”,“sparsa”,…“ObservationsIn”,“列”);

CVMdl和PCVMdl是ClassificationPartitionedLinear模型。

估计k为每个分类器倍边缘。

fullEdge = kfoldEdge (CVMdl)

fullEdge = 16.5629

partEdge = kfoldEdge (PCVMdl)

partEdge = 13.9030

基于k倍边缘,使用的分类器的预测是更好的模型。

找到好的使用套索处罚k倍的优势

打开生活的脚本

确定好lasso-penalty强度线性分类模型,使用逻辑回归的学习者,比较k-fold边缘。

加载NLP的数据集,数据的预处理估计k-Fold边缘交叉验证。

负载nlpdataYstats = Y = =“统计数据”;X = X ';

创建一组11对数间隔正则化的优势 $1 0^{- - - - - - 8}$ 通过 $1 0^{1}$ 。

λ= logspace (8 1 11);

旨在一个二进制线性分类模型使用5倍交叉验证,使用每一种正则化的优势。使用SpaRSA优化目标函数。降低目标函数的梯度的宽容1 e-8。

rng (10);%的再现性Ystats CVMdl = fitclinear (X,“ObservationsIn”,“列”,“KFold”5,…“学习者”,“物流”,“规划求解”,“sparsa”,“正规化”,“套索”,…“λ”λ,“GradientTolerance”1 e-8)

CVMdl = ClassificationPartitionedLinear CrossValidatedModel:“线性”ResponseName:“Y”NumObservations: 31572 KFold: 5分区:[1 x1 cvpartition]类名:[0 1]ScoreTransform:“没有一个”属性,方法

CVMdl是一个ClassificationPartitionedLinear模型。因为fitclinear实现5倍交叉验证,CVMdl包含5ClassificationLinear火车在每个折叠模型软件。

估计每个折叠的边缘和正则化的力量。

eFolds = kfoldEdge (CVMdl,“模式”,“个人”)

eFolds =5×110.9958 0.9958 0.9958 0.9958 0.9958 0.9923 0.9770 0.9223 0.8446 0.8127 0.8127 0.9991 0.9991 0.9991 0.9991 0.9991 0.9939 0.9780 0.9166 0.8262 0.8128 0.8128 0.9992 0.9992 0.9992 0.9992 0.9992 0.9942 0.9781 0.9082 0.8258 0.8128 0.8128 0.9975 0.9975 0.9975 0.9975 0.9975 0.9931 0.9773 0.9103 0.8373 0.8130 0.8130 0.9976 0.9976 0.9976 0.9976 0.9976 0.9942 0.9782 0.9199 0.8351 0.8127 0.8127

eFolds是一个5-by-11矩阵的边缘。行对应于折叠和列对应于正则化优势λ。您可以使用eFolds识别ill-performing折叠,异常低的边缘。

估计平均优势所有折叠为每个正则化的力量。

e = kfoldEdge (CVMdl)

e =1×110.9979 0.9979 0.9979 0.9979 0.9979 0.9935 0.9777 0.9155 0.8338 0.8128 0.8128

了解的模型推广策划的平均每个正规化的5倍的优势力量。确定最大化的正则化强度的5倍网格所不具备的优势。

图;情节(log10(λ)log10 (e),“o”(~),maxEIdx] = max (e);maxLambda =λ(maxEIdx);持有在情节(log10 (maxLambda) log10 (e (maxEIdx)),“罗”);ylabel (“log_{10} 5倍边缘的)包含(“log_{10}λ的)传说(“边缘”,的最大优势)举行从

图包含一个坐标轴对象。坐标轴对象包含2线类型的对象。这些对象代表边缘,最大优势。

数的值λ收益率同样高的边缘。更高的λ值导致预测变量稀疏,这是一个很好的分类器的质量。

选择正则化边缘之前发生的强度开始下降。

LambdaFinal =λ(5);

使用整个数据集训练线性分类模型和指定正则化的力量LambdaFinal。

Ystats MdlFinal = fitclinear (X,“ObservationsIn”,“列”,…“学习者”,“物流”,“规划求解”,“sparsa”,“正规化”,“套索”,…“λ”,LambdaFinal);

为新观测估计标签,通过MdlFinal和新数据预测。

版本历史

介绍了R2016a

全部展开

R2022a:`kfoldEdge`返回一个不同的值与默认的成本矩阵模型

行为改变R2022a

如果你指定一个默认的成本矩阵训练输入模型对象时,kfoldEdge函数返回一个不同的值与以前版本相比。

的kfoldEdge函数使用存储在观察权重W财产。这个函数使用的方式W属性值没有改变。然而,属性值存储在一个模型的输入模型对象改变了默认的成本矩阵,所以函数可以返回不同的值。

属性值变化的细节,请参阅成本属性存储指定的成本矩阵。

如果你想要处理的软件成本矩阵,先验概率,和观察权重在以前的版本中,调整默认的成本的先验概率和观察权重矩阵,描述调整先验概率和观察权重误分类代价矩阵。然后,当你训练一个分类模型,指定调整先验概率和观察权重通过使用之前和权重名称-值参数,分别使用默认成本矩阵。

另请参阅

ClassificationPartitionedLinear|kfoldMargin|ClassificationLinear|kfoldPredict|边缘

kfoldEdge

语法

描述

输入参数

`CVMdl`- - - - - -旨在,二进制线性分类模型
`ClassificationPartitionedLinear`模型对象

名称-值参数

`折叠`- - - - - -折叠使用classification-score预测指标
`1:CVMdl.KFold`(默认)|正整数的数值向量

`模式`- - - - - -边缘聚合级别
`“平均”`(默认)|`“个人”`

输出参数

`e`——旨在分类边
数字标量| |数字矩阵数值向量

例子

估计k倍交叉验证边缘

特征选择使用k倍的边缘

找到好的使用套索处罚k倍的优势

更多关于

分类的优势

分类保证金

分类分

版本历史

R2022a:`kfoldEdge`返回一个不同的值与默认的成本矩阵模型

另请参阅

kfoldEdge

语法

描述

输入参数

CVMdl- - - - - -旨在,二进制线性分类模型ClassificationPartitionedLinear模型对象

名称-值参数

折叠- - - - - -折叠使用classification-score预测指标1:CVMdl.KFold(默认)|正整数的数值向量

模式- - - - - -边缘聚合级别“平均”(默认)|“个人”

输出参数

e——旨在分类边数字标量| |数字矩阵数值向量

例子

估计k倍交叉验证边缘

特征选择使用k倍的边缘

找到好的使用套索处罚k倍的优势

更多关于

分类的优势

分类保证金

分类分

版本历史

R2022a:kfoldEdge返回一个不同的值与默认的成本矩阵模型

另请参阅

`CVMdl`- - - - - -旨在,二进制线性分类模型
`ClassificationPartitionedLinear`模型对象

`折叠`- - - - - -折叠使用classification-score预测指标
`1:CVMdl.KFold`(默认)|正整数的数值向量

`模式`- - - - - -边缘聚合级别
`“平均”`(默认)|`“个人”`

`e`——旨在分类边
数字标量| |数字矩阵数值向量

R2022a:`kfoldEdge`返回一个不同的值与默认的成本矩阵模型