kfoldEdge
分类边观察不用于培训
描述
输入参数
CVMdl
- - - - - -旨在,二进制线性分类模型
ClassificationPartitionedLinear
模型对象
旨在,二进制线性分类模型,指定为一个ClassificationPartitionedLinear
模型对象。您可以创建一个ClassificationPartitionedLinear
模型使用fitclinear
并指定任何一个交叉验证的名称-值对参数,例如,CrossVal
。
名称-值参数
指定可选的双参数作为Name1 = Value1,…,以=家
,在那里的名字
参数名称和吗价值
相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。
R2021a之前,用逗号来分隔每一个名称和值,并附上的名字
在报价。
折叠
- - - - - -折叠使用classification-score预测指标
1:CVMdl.KFold
(默认)|正整数的数值向量
折叠classification-score预测指标使用,指定为逗号分隔组成的“折叠”
和正整数的数值向量。的元素折叠
必须从1
通过CVMdl.KFold
。
例子:“折叠”,[1 4 10]
数据类型:单
|双
模式
- - - - - -边缘聚合级别
“平均”
(默认)|“个人”
边缘聚合级别,指定为逗号分隔组成的“模式”
和“平均”
或“个人”
。
价值 | 描述 |
---|---|
“平均” |
返回平均分类边折叠 |
“个人” |
返回分类为每个折边 |
例子:“模式”,“个人”
输出参数
例子
估计k倍交叉验证边缘
加载NLP数据集。
负载nlpdata
X
是一个稀疏矩阵的预测数据,Y
是一个分类向量类的标签。有两个以上的类的数据。
模型应该确定是否这个词项在一个web页面的统计和机器学习工具箱™文档。所以,确定对应的标签统计和机器学习的工具箱™文档web页面。
Ystats = Y = =“统计数据”;
旨在一个二进制,线性分类模型,该模型可以确定是否这个词项在文档的web页面的统计和机器学习工具箱™文档。
rng (1);%的再现性Ystats CVMdl = fitclinear (X,“CrossVal”,“上”);
CVMdl
是一个ClassificationPartitionedLinear
模型。默认情况下,该软件实现了10倍交叉验证。你可以改变折叠使用的数量“KFold”
名称-值对的论点。
估计的平均值out-of-fold边缘。
e = kfoldEdge (CVMdl)
e = 8.1243
或者,您可以获得per-fold边缘通过指定名称-值对“模式”,“个人”
在kfoldEdge
。
特征选择使用k倍的边缘
进行特征选择的方法之一是比较k倍边缘从多个模型。仅仅根据这一标准,最高的分类器边缘是最好的分类器。
加载NLP的数据集,数据的预处理估计k-Fold边缘交叉验证。
负载nlpdataYstats = Y = =“统计数据”;X = X ';
创建这两个数据集:
fullX
包含所有预测。partX
包含预测的半随机选取的。
rng (1);%的再现性p =大小(X, 1);%的预测数量halfPredIdx = randsample (p,装天花板(0.5 * p));fullX = X;partX = X (halfPredIdx:);
旨在两个二进制线性分类模型:一个使用所有的预测和使用预测的一半。使用SpaRSA优化目标函数,并表明,观察对应列。
CVMdl = fitclinear (fullX Ystats,“CrossVal”,“上”,“规划求解”,“sparsa”,…“ObservationsIn”,“列”);PCVMdl = fitclinear (partX Ystats,“CrossVal”,“上”,“规划求解”,“sparsa”,…“ObservationsIn”,“列”);
CVMdl
和PCVMdl
是ClassificationPartitionedLinear
模型。
估计k为每个分类器倍边缘。
fullEdge = kfoldEdge (CVMdl)
fullEdge = 16.5629
partEdge = kfoldEdge (PCVMdl)
partEdge = 13.9030
基于k倍边缘,使用的分类器的预测是更好的模型。
找到好的使用套索处罚k倍的优势
确定好lasso-penalty强度线性分类模型,使用逻辑回归的学习者,比较k-fold边缘。
加载NLP的数据集,数据的预处理估计k-Fold边缘交叉验证。
负载nlpdataYstats = Y = =“统计数据”;X = X ';
创建一组11对数间隔正则化的优势 通过 。
λ= logspace (8 1 11);
旨在一个二进制线性分类模型使用5倍交叉验证,使用每一种正则化的优势。使用SpaRSA优化目标函数。降低目标函数的梯度的宽容1 e-8
。
rng (10);%的再现性Ystats CVMdl = fitclinear (X,“ObservationsIn”,“列”,“KFold”5,…“学习者”,“物流”,“规划求解”,“sparsa”,“正规化”,“套索”,…“λ”λ,“GradientTolerance”1 e-8)
CVMdl = ClassificationPartitionedLinear CrossValidatedModel:“线性”ResponseName:“Y”NumObservations: 31572 KFold: 5分区:[1 x1 cvpartition]类名:[0 1]ScoreTransform:“没有一个”属性,方法
CVMdl
是一个ClassificationPartitionedLinear
模型。因为fitclinear
实现5倍交叉验证,CVMdl
包含5ClassificationLinear
火车在每个折叠模型软件。
估计每个折叠的边缘和正则化的力量。
eFolds = kfoldEdge (CVMdl,“模式”,“个人”)
eFolds =5×110.9958 0.9958 0.9958 0.9958 0.9958 0.9923 0.9770 0.9223 0.8446 0.8127 0.8127 0.9991 0.9991 0.9991 0.9991 0.9991 0.9939 0.9780 0.9166 0.8262 0.8128 0.8128 0.9992 0.9992 0.9992 0.9992 0.9992 0.9942 0.9781 0.9082 0.8258 0.8128 0.8128 0.9975 0.9975 0.9975 0.9975 0.9975 0.9931 0.9773 0.9103 0.8373 0.8130 0.8130 0.9976 0.9976 0.9976 0.9976 0.9976 0.9942 0.9782 0.9199 0.8351 0.8127 0.8127
eFolds
是一个5-by-11矩阵的边缘。行对应于折叠和列对应于正则化优势λ
。您可以使用eFolds
识别ill-performing折叠,异常低的边缘。
估计平均优势所有折叠为每个正则化的力量。
e = kfoldEdge (CVMdl)
e =1×110.9979 0.9979 0.9979 0.9979 0.9979 0.9935 0.9777 0.9155 0.8338 0.8128 0.8128
了解的模型推广策划的平均每个正规化的5倍的优势力量。确定最大化的正则化强度的5倍网格所不具备的优势。
图;情节(log10(λ)log10 (e),“o”(~),maxEIdx] = max (e);maxLambda =λ(maxEIdx);持有在情节(log10 (maxLambda) log10 (e (maxEIdx)),“罗”);ylabel (“log_{10} 5倍边缘的)包含(“log_{10}λ的)传说(“边缘”,的最大优势)举行从
数的值λ
收益率同样高的边缘。更高的λ值导致预测变量稀疏,这是一个很好的分类器的质量。
选择正则化边缘之前发生的强度开始下降。
LambdaFinal =λ(5);
使用整个数据集训练线性分类模型和指定正则化的力量LambdaFinal
。
Ystats MdlFinal = fitclinear (X,“ObservationsIn”,“列”,…“学习者”,“物流”,“规划求解”,“sparsa”,“正规化”,“套索”,…“λ”,LambdaFinal);
为新观测估计标签,通过MdlFinal
和新数据预测
。
更多关于
分类的优势
的分类的优势是分类的加权平均数的利润率。
选择在多个分类器的一种方式,例如进行特征选择,是选择收益最大的边缘的分类器。
分类保证金
的分类保证金二进制分类,对每个观察,真正的类的分类得分之间的差异和分类评分错误类。
软件定义了二进制分类的分类边界
x是一个观察。如果真正的标签x是积极的类,然后呢y是1,否则和1。f(x)是观察positive-class分类评分x。分类通常被定义为:米=yf(x)。
如果利润相同的规模,那么他们作为分类信心措施。在多个分类器,那些产生更大的利润更好。
分类分
对于线性分类模型,原始分类分分类的观察x一个行向量,到积极的类定义
为模型和正则化的力量j,
估计系数列向量(模型属性β(:,j)
),
模型是估计,标量偏见(财产吗偏见(j)
)。
原始的分类分分类x到负类f(x)。软件将观察分为类,产生积极的分数。
如果逻辑回归的线性分类模型由学习者,那么软件应用分对数的
分数转换原始分类得分(见ScoreTransform
)。
版本历史
介绍了R2016aR2022a:kfoldEdge
返回一个不同的值与默认的成本矩阵模型
行为改变R2022a
如果你指定一个默认的成本矩阵训练输入模型对象时,kfoldEdge
函数返回一个不同的值与以前版本相比。
的kfoldEdge
函数使用存储在观察权重W
财产。这个函数使用的方式W
属性值没有改变。然而,属性值存储在一个模型的输入模型对象改变了默认的成本矩阵,所以函数可以返回不同的值。
属性值变化的细节,请参阅成本属性存储指定的成本矩阵。
如果你想要处理的软件成本矩阵,先验概率,和观察权重在以前的版本中,调整默认的成本的先验概率和观察权重矩阵,描述调整先验概率和观察权重误分类代价矩阵。然后,当你训练一个分类模型,指定调整先验概率和观察权重通过使用之前
和权重
名称-值参数,分别使用默认成本矩阵。
MATLAB命令
你点击一个链接对应MATLAB命令:
运行该命令通过输入MATLAB命令窗口。Web浏览器不支持MATLAB命令。金宝app
你也可以从下面的列表中选择一个网站:
表现最好的网站怎么走吗
选择中国网站(中文或英文)最佳站点的性能。其他MathWorks国家网站不优化的访问你的位置。