文档帮助中心文档
未用于训练的观测值的分类边缘
e = kfoldEdge (CVMdl)
e = kfoldEdge (CVMdl、名称、值)
例子
e= kfoldEdge (CVMdl)返回旨在分类的边缘得到的交叉验证,二元,线性分类模型CVMdl.也就是说,对于每一次折叠,kfoldEdge当它使用所有其他的观察值进行训练时,估计观察值的分类边缘。
e= kfoldEdge (CVMdl)
e
CVMdl
kfoldEdge
e包含的线性分类模型中的每个正则化强度的分类边CVMdl.
e= kfoldEdge (CVMdl,名称,值)使用一个或多个指定的附加选项名称,值对参数。例如,指示用于边计算的折叠。
e= kfoldEdge (CVMdl,名称,值)
名称,值
全部展开
ClassificationPartitionedLinear
交叉验证,二元,线性分类模型,指定为ClassificationPartitionedLinear模型对象。您可以创建ClassificationPartitionedLinear模型使用fitclinear并指定任意一个交叉验证参数,例如名称-值对参数,CrossVal.
fitclinear
CrossVal
为了获得估计,kfoldEdge应用了用于交叉验证线性分类模型的相同数据(X和Y).
X
Y
指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家.
的名字
价值
Name1, Value1,…,的家
“折叠”
1: CVMdl。KFold
用于分类评分预测的折叠索引,指定为逗号分隔对,由“折叠”和一个正整数的数字向量。的元素折叠必须从1通过CVMdl。KFold.
折叠
1
CVMdl。KFold
例子:“折叠”,[1 4 10]
“折叠”,[1 4 10]
数据类型:单|双
单
双
“模式”
“平均”
“个人”
边缘聚合级别,指定为逗号分隔对组成“模式”和“平均”或“个人”.
例子:“模式”,“个人”
“模式”,“个人”
旨在分类的边缘,以数字标量、向量或矩阵的形式返回。
让l为交叉验证模型中正则化强度的数量(即,l是元素个数(CVMdl.Trained {1} .Lambda)),F为存储的折叠数CVMdl。KFold).
l
元素个数(CVMdl.Trained {1} .Lambda)
F
如果模式是“平均”,然后e是1 -l向量。e (j)是否在使用正则化强度的交叉验证模型的所有折线上的平均分类边j.
模式
e (j)
j
否则,e是一个F——- - - - - -l矩阵。e (我,j)分类边是用来折叠的吗我使用正规化强度的交叉验证模型j.
e (我,j)
我
估计e,kfoldEdge使用创建的数据CVMdl(见X和Y).
加载NLP数据集。
负载nlpdata
X是预测数据的稀疏矩阵,和Y是类标签的分类向量。数据中有两个以上的类。
模型应该识别网页中的单词计数是否来自统计学和机器学习工具箱™文档。因此,识别与统计和机器学习工具箱™文档网页相对应的标签。
Ystats = Y ==“统计数据”;
交叉验证一个二元线性分类模型,该模型可以识别文档网页中的单词计数是否来自统计学和机器学习工具箱™文档。
rng (1);%的再现性Ystats CVMdl = fitclinear (X,“CrossVal”,“上”);
CVMdl是一个ClassificationPartitionedLinear模型。默认情况下,该软件实现10倍交叉验证。属性可以改变折叠的数量“KFold”名称-值对的论点。
“KFold”
估计出折叠边的平均值。
e = 8.1243
或者,您可以通过指定名称-值对来获得每折叠边“模式”,“个人”在kfoldEdge.
进行特征选择的一种方法是进行比较k-从多个模型折边。仅根据这个准则,具有最高边的分类器就是最好的分类器。
加载NLP数据集。预处理数据,如估计k折交叉验证边.
负载nlpdataYstats = Y ==“统计数据”;X = X ';
创建以下两个数据集:
fullX包含所有预测。
fullX
partX包含随机选择的预测因子的1/2。
partX
rng (1);%的再现性p =大小(X, 1);%预测数halfPredIdx = randsample (p,装天花板(0.5 * p));fullX = X;partX = X (halfPredIdx:);
交叉验证两个二元线性分类模型:一个使用所有预测器,另一个使用一半预测器。使用SpaRSA优化目标函数,并指出观测值对应列。
CVMdl = fitclinear (fullX Ystats,“CrossVal”,“上”,“规划求解”,“sparsa”,...“ObservationsIn”,“列”);PCVMdl = fitclinear (partX Ystats,“CrossVal”,“上”,“规划求解”,“sparsa”,...“ObservationsIn”,“列”);
CVMdl和PCVMdl是ClassificationPartitionedLinear模型。
PCVMdl
估计k-折边为每个分类器。
fullEdge = kfoldEdge (CVMdl)
fullEdge = 16.5629
partEdge = kfoldEdge (PCVMdl)
partEdge = 13.9030
基于k-fold edges,使用所有预测器的分类器是更好的模型。
为使用逻辑回归学习器的线性分类模型确定一个好的套索惩罚强度,比较k折边。
创建一组11个对数间隔的正则化强度 1 0 - 8 通过 1 0 1 .
λ= logspace (8 1 11);
交叉验证一个二元线性分类模型,使用5倍交叉验证,并使用每个正则化强度。利用SpaRSA优化目标函数。将目标函数梯度的容差降低到1 e-8.
1 e-8
rng (10);%的再现性Ystats CVMdl = fitclinear (X,“ObservationsIn”,“列”,“KFold”5,...“学习者”,“物流”,“规划求解”,“sparsa”,“正规化”,“套索”,...“λ”λ,“GradientTolerance”1 e-8)
CVMdl = ClassificationPartitionedLinear CrossValidatedModel: 'Linear' ResponseName: 'Y' NumObservations: 31572 KFold: 5 Partition: [1x1 cvpartition] ClassNames: [0 1] ScoreTransform: 'none'属性,方法
CVMdl是一个ClassificationPartitionedLinear模型。因为fitclinear实现5倍交叉验证,CVMdl包含5ClassificationLinear软件在每次折叠时训练的模型。
ClassificationLinear
估计每个折叠的边缘和正则化强度。
eFolds = kfoldEdge (CVMdl,“模式”,“个人”)
eFolds =5×110.9958 0.9958 0.9958 0.9958 0.9924 0.9770 0.9178 0.8452 0.8127 0.8127 0.9991 0.9991 0.9991 0.9991 0.9991 0.9991 0.9991 0.9780 0.9201 0.8262 0.8128 0.8128 0.9992 0.9992 0.9992 0.9992 0.9992 0.9942 0.9781 0.9135 0.8253 0.8128 0.8128 0.8128 0.9974 0.9974 0.9974 0.9974 0.9931 0.9773 0.9121 0.8410 0.8130 0.8130 0.9976 0.9976 0.9976 0.9976 0.9976 0.99420.9782 0.9157 0.8368 0.8127 0.8127
eFolds是一个由边组成的5 × 11矩阵。中的行对应折叠,列对应正则化强度λ.您可以使用eFolds用来识别表现不佳的褶皱,也就是异常低的边缘。
eFolds
λ
估计每个正规化强度在所有折痕上的平均边。
e =1×110.9978 0.9978 0.9978 0.9978 0.9978 0.9978 0.9936 0.9777 0.9158 0.8349 0.8128 0.8128
通过绘制每个正规化强度的5折边的平均值来确定模型的泛化程度。确定使网格上的5倍边最大化的正规化强度。
图;情节(log10(λ)log10 (e),“o”) [~, maxEIdx] = max(e);maxLambda =λ(maxEIdx);持有在情节(log10 (maxLambda) log10 (e (maxEIdx)),“罗”);ylabel (“log_{10} 5倍边缘的)包含(“log_{10}λ的)传说(“边缘”,的最大优势)举行从
数的值λ产生类似的高边。较高的lambda值会导致预测变量的稀疏性,这是一个很好的分类器质量。
选择正规化强度发生在边缘开始下降之前。
LambdaFinal =λ(5);
使用整个数据集训练线性分类模型,并指定正则化强度LambdaFinal.
LambdaFinal
Ystats MdlFinal = fitclinear (X,“ObservationsIn”,“列”,...“学习者”,“物流”,“规划求解”,“sparsa”,“正规化”,“套索”,...“λ”, LambdaFinal);
要估计新观测值的标签,请通过MdlFinal和新的数据预测.
MdlFinal
预测
的分类的优势为分类边界的加权平均值。
在多个分类器中进行选择的一种方法是选择产生最大边的分类器,例如执行特征选择。
的分类保证金二元分类是,对于每个观察,真实类的分类分数与虚假类的分类分数之间的差值。
软件将二元分类的分类裕度定义为
米 = 2 y f ( x ) .
x是一个观察。如果真实的标签x那么,是积极类吗y为1,否则为-1。f(x)为观察的阳性分类评分x.分类裕度一般定义为米=yf(x).
如果边际值在同一尺度上,则作为分类置信度的衡量标准。在众多分类公司中,那些利润率更高的公司表现更好。
对于线性分类模型,原始分类分对观察进行分类x,一个行向量,进入正数类定义为
f j ( x ) = x β j + b j .
对于具有正则化强度的模型j, β j 估计的列向量系数(模型属性β(:,j)), b j 估计的标量偏差(模型属性偏见(j)).
β(:,j)
偏见(j)
用于分类的原始分类分数x负的类别是-f(x).该软件将观察结果分类,得出积极的分数。
如果线性分类模型由logistic回归学习者组成,则该软件应用分对数的分数转换为原始分类分数(见ScoreTransform).
分对数的
ScoreTransform
ClassificationLinear|ClassificationPartitionedLinear|边缘|kfoldMargin|kfoldPredict
边缘
kfoldMargin
kfoldPredict
您有这个示例的修改版本。您想打开这个示例与您的编辑吗?
你点击一个链接对应于这个MATLAB命令:
通过在MATLAB命令窗口中输入命令来运行命令。Web浏览器不支持MATLAB命令。金宝app
选择一个网站,在那里获得翻译的内容,并看到当地的活动和优惠。根据您的位置,我们建议您选择:.
你也可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。
与当地办事处联系