主要内容

kfoldEdge

分类边观察不用于培训

描述

例子

e= kfoldEdge (CVMdl)返回旨在分类的边缘旨在获得的、二进制线性分类模型CVMdl。也就是说,每一个褶皱,kfoldEdge估计的分类边观察,它伸出火车时使用其他观测。

e包含每个正规化的分类边缘强度的线性分类模型组成CVMdl

例子

e= kfoldEdge (CVMdl,名称,值)使用指定的一个或多个额外的选项名称,值对参数。例如,表示使用哪个折叠边缘计算。

输入参数

全部展开

旨在,二进制线性分类模型,指定为一个ClassificationPartitionedLinear模型对象。您可以创建一个ClassificationPartitionedLinear模型使用fitclinear并指定任何一个交叉验证的名称-值对参数,例如,CrossVal

获得的估计,kfoldEdge适用相同的数据用于旨在线性分类模型(XY)。

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

折叠classification-score预测指标使用,指定为逗号分隔组成的“折叠”和正整数的数值向量。的元素折叠必须从1通过CVMdl.KFold

例子:“折叠”,[1 4 10]

数据类型:|

边缘聚合级别,指定为逗号分隔组成的“模式”“平均”“个人”

价值 描述
“平均” 返回平均分类边折叠
“个人” 返回分类为每个折边

例子:“模式”,“个人”

输出参数

全部展开

旨在分类的边缘,作为一个数字返回标量、向量或矩阵。

l正规化的数量优势在旨在模型(即,l元素个数(CVMdl.Trained {1} .Lambda)),F被折叠的数量(存储在CVMdl.KFold)。

  • 如果模式“平均”,然后e是1 -l向量。e (j)的平均分类优势是所有旨在模型的折叠,使用正则化力量j

  • 否则,e是一个F——- - - - - -l矩阵。e (,j)分类边缘褶皱吗旨在模型,利用正则化的力量j

估计e,kfoldEdge使用创建的数据CVMdl(见XY)。

例子

全部展开

加载NLP数据集。

负载nlpdata

X是一个稀疏矩阵的预测数据,Y是一个分类向量类的标签。有两个以上的类的数据。

模型应该确定是否这个词项在一个web页面的统计和机器学习工具箱™文档。所以,确定对应的标签统计和机器学习的工具箱™文档web页面。

Ystats = Y = =“统计数据”;

旨在一个二进制,线性分类模型,该模型可以确定是否这个词项在文档的web页面的统计和机器学习工具箱™文档。

rng (1);%的再现性Ystats CVMdl = fitclinear (X,“CrossVal”,“上”);

CVMdl是一个ClassificationPartitionedLinear模型。默认情况下,该软件实现了10倍交叉验证。你可以改变折叠使用的数量“KFold”名称-值对的论点。

估计的平均值out-of-fold边缘。

e = kfoldEdge (CVMdl)
e = 8.1243

或者,您可以获得per-fold边缘通过指定名称-值对“模式”,“个人”kfoldEdge

进行特征选择的方法之一是比较k倍边缘从多个模型。仅仅根据这一标准,最高的分类器边缘是最好的分类器。

加载NLP的数据集,数据的预处理估计k-Fold边缘交叉验证

负载nlpdataYstats = Y = =“统计数据”;X = X ';

创建这两个数据集:

  • fullX包含所有预测。

  • partX包含预测的半随机选取的。

rng (1);%的再现性p =大小(X, 1);%的预测数量halfPredIdx = randsample (p,装天花板(0.5 * p));fullX = X;partX = X (halfPredIdx:);

旨在两个二进制线性分类模型:一个使用所有的预测和使用预测的一半。使用SpaRSA优化目标函数,并表明,观察对应列。

CVMdl = fitclinear (fullX Ystats,“CrossVal”,“上”,“规划求解”,“sparsa”,“ObservationsIn”,“列”);PCVMdl = fitclinear (partX Ystats,“CrossVal”,“上”,“规划求解”,“sparsa”,“ObservationsIn”,“列”);

CVMdlPCVMdlClassificationPartitionedLinear模型。

估计k为每个分类器倍边缘。

fullEdge = kfoldEdge (CVMdl)
fullEdge = 16.5629
partEdge = kfoldEdge (PCVMdl)
partEdge = 13.9030

基于k倍边缘,使用的分类器的预测是更好的模型。

确定好lasso-penalty强度线性分类模型,使用逻辑回归的学习者,比较k-fold边缘。

加载NLP的数据集,数据的预处理估计k-Fold边缘交叉验证

负载nlpdataYstats = Y = =“统计数据”;X = X ';

创建一组11对数间隔正则化的优势 1 0 - - - - - - 8 通过 1 0 1

λ= logspace (8 1 11);

旨在一个二进制线性分类模型使用5倍交叉验证,使用每一种正则化的优势。使用SpaRSA优化目标函数。降低目标函数的梯度的宽容1 e-8

rng (10);%的再现性Ystats CVMdl = fitclinear (X,“ObservationsIn”,“列”,“KFold”5,“学习者”,“物流”,“规划求解”,“sparsa”,“正规化”,“套索”,“λ”λ,“GradientTolerance”1 e-8)
CVMdl = ClassificationPartitionedLinear CrossValidatedModel:“线性”ResponseName:“Y”NumObservations: 31572 KFold: 5分区:[1 x1 cvpartition]类名:[0 1]ScoreTransform:“没有一个”属性,方法

CVMdl是一个ClassificationPartitionedLinear模型。因为fitclinear实现5倍交叉验证,CVMdl包含5ClassificationLinear火车在每个折叠模型软件。

估计每个折叠的边缘和正则化的力量。

eFolds = kfoldEdge (CVMdl,“模式”,“个人”)
eFolds =5×110.9958 0.9958 0.9958 0.9958 0.9958 0.9923 0.9770 0.9223 0.8446 0.8127 0.8127 0.9991 0.9991 0.9991 0.9991 0.9991 0.9939 0.9780 0.9166 0.8262 0.8128 0.8128 0.9992 0.9992 0.9992 0.9992 0.9992 0.9942 0.9781 0.9082 0.8258 0.8128 0.8128 0.9975 0.9975 0.9975 0.9975 0.9975 0.9931 0.9773 0.9103 0.8373 0.8130 0.8130 0.9976 0.9976 0.9976 0.9976 0.9976 0.9942 0.9782 0.9199 0.8351 0.8127 0.8127

eFolds是一个5-by-11矩阵的边缘。行对应于折叠和列对应于正则化优势λ。您可以使用eFolds识别ill-performing折叠,异常低的边缘。

估计平均优势所有折叠为每个正则化的力量。

e = kfoldEdge (CVMdl)
e =1×110.9979 0.9979 0.9979 0.9979 0.9979 0.9935 0.9777 0.9155 0.8338 0.8128 0.8128

了解的模型推广策划的平均每个正规化的5倍的优势力量。确定最大化的正则化强度的5倍网格所不具备的优势。

图;情节(log10(λ)log10 (e),“o”(~),maxEIdx] = max (e);maxLambda =λ(maxEIdx);持有情节(log10 (maxLambda) log10 (e (maxEIdx)),“罗”);ylabel (“log_{10} 5倍边缘的)包含(“log_{10}λ的)传说(“边缘”,的最大优势)举行

图包含一个坐标轴对象。坐标轴对象包含2线类型的对象。这些对象代表边缘,最大优势。

数的值λ收益率同样高的边缘。更高的λ值导致预测变量稀疏,这是一个很好的分类器的质量。

选择正则化边缘之前发生的强度开始下降。

LambdaFinal =λ(5);

使用整个数据集训练线性分类模型和指定正则化的力量LambdaFinal

Ystats MdlFinal = fitclinear (X,“ObservationsIn”,“列”,“学习者”,“物流”,“规划求解”,“sparsa”,“正规化”,“套索”,“λ”,LambdaFinal);

为新观测估计标签,通过MdlFinal和新数据预测

更多关于

全部展开

版本历史

介绍了R2016a

全部展开

行为改变R2022a