kfoldEdge
未用于训练的观测数据的分类边缘
描述
输入参数
CVMdl
- - - - - -交叉验证,二元,线性分类模型
ClassificationPartitionedLinear
模型对象
交叉验证,二元,线性分类模型,指定为ClassificationPartitionedLinear
模型对象。您可以创建ClassificationPartitionedLinear
模型使用fitclinear
并指定任何一个交叉验证,名值对参数,例如,CrossVal
.
名称-值参数
指定可选参数对为Name1 = Value1,…,以=家
,在那里的名字
参数名称和价值
对应的值。名称-值参数必须出现在其他参数之后,但对的顺序无关紧要。
在R2021a之前,使用逗号分隔每个名称和值,并将其括起来的名字
在报价。
折叠
- - - - - -折叠指数用于分类评分预测
1: CVMdl。KFold
(默认)|正整数的数字向量
用于分类评分预测的折叠指数,指定为逗号分隔的对,由“折叠”
一个正整数的数字向量。的要素折叠
必须从1
通过CVMdl。KFold
.
例子:“折叠”,[1 4 10]
数据类型:单
|双
模式
- - - - - -边缘聚合级别
“平均”
(默认)|“个人”
边缘聚合级别,指定为由逗号分隔的对组成“模式”
而且“平均”
或“个人”
.
价值 | 描述 |
---|---|
“平均” |
返回所有折叠的平均分类边 |
“个人” |
返回每个折叠的分类边 |
例子:“模式”,“个人”
输出参数
例子
估计k-折叠交叉验证边
加载NLP数据集。
负载nlpdata
X
是一个稀疏矩阵的预测数据,和Y
是类标签的分类向量。数据中有两个以上的类。
这些模型应该识别网页中的字数是否来自统计和机器学习工具箱™文档。因此,确定与统计和机器学习工具箱™文档网页对应的标签。
Ystats = Y ==“统计数据”;
交叉验证二进制线性分类模型,该模型可以识别文档网页中的字数是否来自统计和机器学习工具箱™文档。
rng (1);%用于再现性CVMdl = fitclinear(X,Ystats,“CrossVal”,“上”);
CVMdl
是一个ClassificationPartitionedLinear
模型。默认情况下,该软件实现10倍交叉验证。控件可以更改折叠数“KFold”
名称-值对参数。
估计折外边的平均值。
e = kfoldge (cvdl)
E = 8.1243
或者,您可以通过指定名称-值对来获取每条折叠边“模式”,“个人”
在kfoldEdge
.
特征选择使用k倍的边缘
执行特征选择的一种方法是比较k-从多个模型中折叠边缘。仅根据这一准则,边缘最高的分类器就是最好的分类器。
加载NLP数据集。预处理数据,如估计k-Fold交叉验证边.
负载nlpdataYstats = Y ==“统计数据”;X = X';
创建以下两个数据集:
fullX
包含所有预测符。partX
包含随机选择的预测因子的1/2。
rng (1);%用于再现性p = size(X,1);%预测因子的数量halfPredIdx = randsample(p,ceil(0.5*p));fullX = X;partX = X(halfPredIdx,:);
交叉验证两个二元线性分类模型:一个使用所有预测因子,一个使用一半预测因子。利用SpaRSA对目标函数进行优化,表明观测值与列相对应。
CVMdl = fitclinear(fullX,Ystats,“CrossVal”,“上”,“规划求解”,“sparsa”,...“ObservationsIn”,“列”);PCVMdl = fitclinear(partX,Ystats,“CrossVal”,“上”,“规划求解”,“sparsa”,...“ObservationsIn”,“列”);
CVMdl
而且PCVMdl
是ClassificationPartitionedLinear
模型。
估计k-每个分类器的褶边。
fullEdge = kfoldge (cvdl)
fullEdge = 16.5629
partEdge = kfoldEdge(PCVMdl)
partEdge = 13.9030
基于k-fold边,使用所有预测因子的分类器是更好的模型。
找到好的套索惩罚使用k倍的优势
为了确定使用逻辑回归学习器的线性分类模型的良好套索惩罚强度,比较k褶边。
加载NLP数据集。预处理数据,如估计k-Fold交叉验证边.
负载nlpdataYstats = Y ==“统计数据”;X = X';
创建一组11个对数间隔的正则化强度 通过 .
Lambda = logspace(-8,1,11);
使用5次交叉验证交叉验证二元线性分类模型,并使用每种正则化强度。利用SpaRSA对目标函数进行优化。将目标函数的梯度公差降低到1 e-8
.
rng (10);%用于再现性CVMdl = fitclinear(X,Ystats,“ObservationsIn”,“列”,“KFold”5,...“学习者”,“物流”,“规划求解”,“sparsa”,“正规化”,“套索”,...“λ”λ,“GradientTolerance”1 e-8)
CVMdl = ClassificationPartitionedLinear CrossValidatedModel: 'Linear' ResponseName: 'Y' NumObservations: 31572 KFold: 5 Partition: [1x1 cvpartition] ClassNames: [0 1] ScoreTransform: 'none'属性,方法
CVMdl
是一个ClassificationPartitionedLinear
模型。因为fitclinear
实现5倍交叉验证,CVMdl
包含5ClassificationLinear
软件在每次折叠上训练的模型。
估计每个折叠的边缘和正则化强度。
eFolds = kfoldEdge(CVMdl,“模式”,“个人”)
eFolds =5×110.9958 0.9958 0.9958 0.9958 0.9923 0.9772 0.9231 0.8419 0.8127 0.8127 0.9991 0.9991 0.9991 0.9939 0.9780 0.9181 0.8257 0.8128 0.8128 0.9992 0.9992 0.9992 0.9992 0.9779 0.9103 0.8255 0.8128 0.8128 0.9974 0.9974 0.9974 0.9974 0.9974 0.9931 0.9772 0.9195 0.8486 0.8130 0.9976 0.9976 0.9976 0.9976 0.9976 0.9976 0.9976 0.9976 0.9976 0.9976 0.9976 0.9976 0.9942 0.9782 0.8194 0.8400 0.8127 0.8127
eFolds
是一个5 × 11的边矩阵。行对应折叠,列对应正则化强度λ
.你可以使用eFolds
识别表现不佳的折叠,即异常低边。
估计每个正则化强度下所有折叠的平均边缘。
e = kfoldge (cvdl)
e =1×110.9978 0.9978 0.9978 0.9978 0.9978 0.9935 0.9777 0.9181 0.8364 0.8128 0.8128
通过绘制每个正则化强度的5倍边的平均值来确定模型的泛化程度。确定正则化强度,使网格上的5倍边最大化。
图;情节(log10(λ)log10 (e),“o”) [~, maxEIdx] = max(e);maxLambda = Lambda(maxEIdx);持有在情节(log10 (maxLambda) log10 (e (maxEIdx)),“罗”);ylabel ('log_{10} 5折边')包含(“log_{10}λ的)传说(“边缘”,的最大优势)举行从
的几个值λ
产生同样高的边缘。较高的lambda值导致预测变量稀疏性,这是分类器的一个良好品质。
选择恰好在边缘开始减少之前发生的正则化强度。
LambdaFinal = Lambda(5);
使用整个数据集训练一个线性分类模型,并指定正则化强度LambdaFinal
.
MdlFinal = fitclinear(X,Ystats,“ObservationsIn”,“列”,...“学习者”,“物流”,“规划求解”,“sparsa”,“正规化”,“套索”,...“λ”, LambdaFinal);
要估计新观测值的标签,请通过MdlFinal
新的数据预测
.
更多关于
分类的优势
的分类的优势是分类边际的加权平均值。
在多个分类器中进行选择的一种方法,例如执行特征选择,是选择产生最大边缘的分类器。
分类保证金
的分类保证金对于二元分类,对于每个观察,是真实类别的分类分数与虚假类别的分类分数之间的差值。
该软件将二进制分类的分类裕度定义为
x是一种观察。如果真标签的x那么,是阳性类吗y为1,否则为-1。f(x)为观察的正类分类分数x.分类裕度通常定义为米=yf(x).
如果边际在同一个尺度上,那么它们可以作为分类置信度的衡量标准。在多个分类器中,利润率更高的分类器更好。
分类分
对于线性分类模型,原始的分类分对观测进行分类x,一个行向量,转化为正类定义为
对于具有正则化强度的模型j,
估计的列向量的系数(模型属性β(:,j)
),
估计的标量偏差(模型属性偏见(j)
).
用于分类的原始分类分数x进入负类的是-f(x).该软件将观察结果分为产生正分的类别。
如果线性分类模型由逻辑回归学习器组成,则该软件应用分对数的
分数转换为原始分类分数(见ScoreTransform
).
版本历史
在R2016a中引入R2022a:kfoldEdge
对于具有非默认成本矩阵的模型,返回不同的值
如果在训练输入模型对象时指定非默认代价矩阵,则kfoldEdge
函数返回与以前版本不同的值。
的kfoldEdge
函数使用存储在W
财产。函数使用的方式W
属性值没有改变。但是,对于具有非默认代价矩阵的模型,存储在输入模型对象中的属性值已经更改,因此函数可以返回不同的值。
修改属性值的具体操作请参见Cost属性存储用户指定的成本矩阵.
如果您希望软件像以前版本中那样处理成本矩阵、先验概率和观察权重,请调整非默认成本矩阵的先验概率和观察权重,如中所述调整错误分类成本矩阵的先验概率和观测权重.然后,当你训练一个分类模型,指定调整的先验概率和观察权重使用之前
而且权重
分别使用名称-值参数,并使用默认代价矩阵。
Matlab명령
다음matlab명령에해당하는링크를클릭했습니다。
명령을실행하려면matlab명령창에입력하십시오。웹브라우저는matlab명령을지원하지않습니다。
您也可以从以下列表中选择一个网站:
如何获得最佳的网站性能
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。