ClassificationLinear类

线性模型的二进制高维数据的分类

描述

ClassificationLinear是一个训练有素的线性模型对象二进制分类;线性模型是一个支持向量机(SVM)或逻辑回归金宝app模型。fitclinear符合一个ClassificationLinear模型通过最小化目标函数的使用技术,减少计算时间为高维数据集(例如,随机梯度下降法)。分类损失+目标函数的正则化项组成。

与其他分类模型,对经济的内存使用情况,ClassificationLinear模型对象不存储训练数据。然而,他们做的商店,例如,估计线性模型系数,prior-class概率,正规化的力量。

您可以使用训练ClassificationLinear模型来预测新数据标签或分类的分数。有关详细信息,请参见预测。

建设

创建一个ClassificationLinear对象的使用fitclinear。

属性

全部展开

线性分类属性

`λ`- - - - - -正则化项的力量
负的标量|向量的非负价值

正则化项,指定为负的标量或矢量非负价值。

数据类型:双|单

`学习者`- - - - - -线性分类模型类型
`“物流”`|`“支持向量机”`

线性分类模型类型,指定为“物流”或“支持向量机”。

在这个表中, $f (x) = x β + b 。$

β是一个向量的p系数。
x是一个观察从p预测变量。
b是标量的偏见。

价值	算法	损失函数	`FittedLoss`价值
`“支持向量机”`	金宝app支持向量机	铰链: $ℓ (y, f (x)] = 马克斯 (0, 1 - y f (x)]$	`“枢纽”`
`“物流”`	逻辑回归	异常(物流): $ℓ (y, f (x)] = 日志 {1 + 经验值 (- y f (x)]}$	`分对数的`

`β`- - - - - -线性系数估计
数值向量

线性系数的估计,指定为一个数值向量长度等于预测的数量。

数据类型:双

`偏见`- - - - - -估计偏差
数字标量

估计偏差或拦截模型,指定为数字标量。

数据类型:双

`FittedLoss`- - - - - -损失函数用于符合线性模型
`“枢纽”`|`分对数的`

这个属性是只读的。

损失函数用于符合线性模型,指定为“枢纽”或分对数的。

价值	算法	损失函数	`学习者`价值
`“枢纽”`	金宝app支持向量机	铰链: $ℓ (y, f (x)] = 马克斯 (0, 1 - y f (x)]$	`“支持向量机”`
`分对数的`	逻辑回归	异常(物流): $ℓ (y, f (x)] = 日志 {1 + 经验值 (- y f (x)]}$	`“物流”`

`正则化`- - - - - -复杂性处罚类型
`“套索(L1)”`|`“岭(L2)”`

复杂性处罚类型,指定为“套索(L1)”或“岭(L2)”。

软件组成的目标函数最小化的平均损失函数(见的总和FittedLoss从这个表)和正则化的价值。

价值	描述
`“套索(L1)”`	套索(l₁)罚款: $λ \sum_{j = 1}^{p} \| β_{j} \|$
`“岭(L2)”`	脊(l₂)罚款: $\frac{λ}{2} \sum_{j = 1}^{p} β_{j}^{2}$

λ指定了正则化项强度(见λ)。

软件不包括偏差项(β₀从正则化处罚)。

其他分类属性

`CategoricalPredictors`- - - - - -分类预测指标
向量的正整数|`[]`

分类预测指标,指定为一个向量的正整数。CategoricalPredictors包含索引值表明相应的预测分类。索引值介于1和p,在那里p预测的数量被用来训练模型。如果所有的预测都直言,那么这个属性是空的([])。

数据类型:单|双

`一会`- - - - - -独特的类标签
分类数组|字符数组|逻辑向量|数值向量|单元阵列的特征向量

独特的类标签用于培训,指定为一个类别或字符数组,逻辑或数值向量,或单元阵列的特征向量。一会具有相同的数据类型的类标签吗Y。(软件对字符串数组作为细胞阵列特征向量)。一会也决定了课堂秩序。

数据类型:分类|字符|逻辑|单|双|细胞

`成本`- - - - - -误分类代价
广场数字矩阵

这个属性是只读的。

误分类代价,指定为一个正方形数字矩阵。成本有K行和列,K类的数量。

成本(我,j)是一个指向类分类的成本j如果它真正的类我。的行和列的顺序成本对应于类的顺序一会。

数据类型:双

`ModelParameters`- - - - - -参数用于训练模型
结构

参数用于训练ClassificationLinear模型,指定为一个结构。

访问字段ModelParameters使用点符号。例如,访问线性系数的相对公差和偏差项使用Mdl.ModelParameters.BetaTolerance。

数据类型:结构体

`PredictorNames`- - - - - -预测的名字
单元阵列的特征向量

预测出他们名字的顺序出现在预测数据,指定为一个单元阵列的特征向量。的长度PredictorNames等于在训练数据变量的数量X或资源描述作为预测变量。

数据类型:细胞

`ExpandedPredictorNames`- - - - - -扩大了预测的名字
单元阵列的特征向量

扩展预测名称,指定为一个单元阵列的特征向量。

如果分类变量的模型使用的编码,那么ExpandedPredictorNames包括名称,描述变量扩展。否则,ExpandedPredictorNames是一样的PredictorNames。

数据类型:细胞

`之前`- - - - - -前类概率
数值向量

这个属性是只读的。

类概率之前,指定为一个数值向量。之前尽可能多的元素类一会和元素的顺序对应的元素一会。

数据类型:双

`ResponseName`- - - - - -响应变量名
特征向量

响应变量名称,指定为一个特征向量。

数据类型:字符

`ScoreTransform`- - - - - -分数转换函数
`“doublelogit”`|`“invlogit”`|`“ismax”`|`分对数的`|`“没有”`|函数处理|……

分数转换函数适用于预测分数,指定为一个函数名或函数处理。

线性分类模型在转换之前,预测分类评分的观察x(行向量)f(x)=xβ+b,在那里β和b对应于Mdl.Beta和Mdl.Bias,分别。

改变分数转换函数,例如,函数,使用点符号。

对于一个内置的函数,输入这个代码和替换函数表中的值。

Mdl。ScoreTransform = '函数”;

价值	描述
`“doublelogit”`	1 / (1 +e^2x)
`“invlogit”`	日志(x/ (1 -x))
`“ismax”`	集类的分数最大的分数为1,并设置所有其他类的分数为0
`“分对数”`	1 / (1 +e^{- - - - - -x})
`“没有”`或`“身份”`	x(转换)
`“标志”`	1x< 0 为0x= 0 1x> 0
`“对称”`	2x- 1
`“symmetricismax”`	集合类的分数最大的分数为1,和所有其他类的分数设置为1
`“symmetriclogit”`	2 / (1 +e^{- - - - - -x})- 1

对于一个MATLAB^®函数,或者您定义一个函数,输入函数处理。
```
Mdl。ScoreTransform = @函数;
```
函数必须接受一个矩阵的原始分数为每个类,然后返回一个相同大小的矩阵表示为每一个类转换后的分数。

数据类型:字符|function_handle

对象的功能

`边缘`	分类边缘线性分类模型
`incrementalLearner`	线性模型转换为二进制增量学习分类
`石灰`	本地可model-agnostic解释(石灰)
`损失`	分类损失线性分类模型
`保证金`	分类利润率为线性分类模型
`partialDependence`	计算部分依赖
`plotPartialDependence`	创建部分依赖图(PDP)和个人条件期望(ICE)情节
`预测`	预测线性分类模型的标签
`沙普利`	沙普利值
`selectModels`	选择的子集正规化、二进制线性分类模型
`更新`	更新模型参数代码生成

复制语义

价值。学习如何价值类影响复制操作,明白了复制对象。

例子

全部折叠

火车线性分类模型

打开生活的脚本

火车一个二进制线性使用支持向量机分类模型,双SGD,脊正规化。金宝app

加载NLP数据集。

负载nlpdata

X是一个稀疏矩阵的预测数据,Y是一个分类向量类的标签。有两个以上的类的数据。

确定对应的标签统计和机器学习工具箱™文档web页面。

Ystats = Y = =“统计数据”;

火车一个二进制,线性分类模型,该模型可以确定这个词项在文档web页面是否从统计和机器学习工具箱™文档。使用整个数据集训练模型。确定如何优化算法适应模型数据通过提取与总结。

rng (1);%的再现性[Mdl, FitInfo] = fitclinear (X, Ystats)

Mdl = ClassificationLinear ResponseName:“Y”类名:[0 1]ScoreTransform:“没有一个”测试:[34023 x1双]偏见:-1.0059λ:3.1674 e-05学习者:“支持向量机”属性,方法

FitInfo =结构体字段:λ:3.1674 e-05目的:5.3783 e-04 PassLimit: 10 NumPasses: 10 BatchLimit: [] NumIterations: 238561 GradientNorm:南GradientTolerance: 0 RelativeChangeInBeta: 0.0562 BetaTolerance: 1.0000 e-04 DeltaGradient: 1.4582 DeltaGradientTolerance: 1 TerminationCode: 0 TerminationStatus:{“迭代超过限制。'}α(31572 x1双):历史:[]FitTime: 0.8858解决:{“双重”}

Mdl是一个ClassificationLinear模型。你可以通过Mdl和培训或新数据损失检查样本分类错误。或者,你也可以通过Mdl和新的预测数据预测预测类标签的新观察。

FitInfo是一个结构数组包含,除此之外,终止状态(TerminationStatus)和多长时间解决了适合模型的数据(FitTime)。是一种很好的做法FitInfo确定optimization-termination测量是否令人满意。因为培训时间很小,你可以试着重新训练模型,但增加通过的数量数据。这可以改善措施DeltaGradient。

使用线性分类模型预测类标签

打开生活的脚本

加载NLP数据集。

负载nlpdatan =大小(X, 1);%的观察

确定对应的标签统计和机器学习工具箱™文档web页面。

Ystats = Y = =“统计数据”;

坚持5%的数据。

rng (1);%的再现性本量利= cvpartition (n,“坚持”,0.05)

本量利=抵抗交叉验证分区NumObservations: 31572 NumTestSets: 1 TrainSize: 29994 TestSize: 1578

本量利是一个CVPartition对象定义了随机分区n数据分为训练集和测试集。

火车一个二进制,使用训练集线性分类模型可以确定这个词项在文档web页面从统计和机器学习工具箱™文档。为更快的训练时间,东方的预测数据矩阵,以便观察列。

idxTrain =培训(cvp);%提取训练集指标X = X ';Mdl = fitclinear (X (:, idxTrain) Ystats (idxTrain),“ObservationsIn”,“列”);

观察和预测样本分类错误的坚持。

idxTest =测试(cvp);%提取测试集指标标签=预测(Mdl X (:, idxTest),“ObservationsIn”,“列”);L =损失(Mdl X (:, idxTest) Ystats (idxTest),“ObservationsIn”,“列”)

L = 7.1753 e-04

Mdl分类少于1%的样本外观察。

扩展功能

C / c++代码生成
生成C和c++代码使用MATLAB®编码器™。

使用笔记和限制:

的预测和更新代码生成功能支持。金宝app
当你训练一个线性分类模型用fitclinear以下限制适用。
- 如果预测数据输入参数值是一个矩阵,它必须是一个完整的,数字矩阵。不支持稀疏数据生成代码。金宝app
- 您可以指定只有一个正规化的力量“汽车”或非负的标量“λ”名称-值对的论点。
- 的值“ScoreTransform”名称-值对的论点不能一个匿名函数。
- 对于代码生成与编码器配置,以下额外的限制。
  - 分类预测(逻辑,分类,字符,字符串,或细胞不支持)。金宝app你不能使用CategoricalPredictors名称-值参数。包括分类预测模型中,利用预处理dummyvar在拟合模型。
  - 类标签分类不支持的数据类型。金宝app训练数据的类标签值(资源描述或Y)和的值一会名称-值参数不能与数组分类数据类型。

有关更多信息,请参见介绍代码生成。

版本历史

介绍了R2016a

全部展开

R2022a:`成本`属性存储指定的成本矩阵

行为改变R2022a

从R2022a,成本属性存储指定的成本矩阵,这样你就可以计算出观察误分类成本使用指定的成本价值。软件商店规范化先验概率(之前),不能反映成本矩阵描述的处罚。细节计算观察到的误分类代价,看到R2022a释放注意损失函数的分类模型对象:计算观察误分类代价。

注意,模型训练并没有改变,因此,类之间的决策边界没有改变。

培训,拟合函数更新指定的先验概率,将指定的描述的惩罚成本矩阵,然后规范化先验概率和观察的权重。这种行为没有改变。在以前的版本中,存储的软件默认成本矩阵成本财产和存储用于培训的先验概率之前财产。从R2022a,软件商店指定成本矩阵,并存储规范化的先验概率,不能反映成本惩罚。更多细节,请参阅误分类代价矩阵、先验概率和观察权重。

一些对象函数使用成本和之前属性:

的损失函数使用矩阵的存储成本成本如果你指定属性LossFun名称-值参数为“classifcost”或“mincost”。
的损失和边缘函数使用中存储的先验概率之前属性规范化观察输入数据的权重。

如果你指定一个默认的成本矩阵训练分类模型时,该对象函数返回一个不同的值与以前版本相比。

如果你想要处理的软件成本矩阵,先验概率,和观察权重在以前的版本中,调整默认的成本的先验概率和观察权重矩阵,描述调整先验概率和观察权重误分类代价矩阵。然后,当你训练一个分类模型,指定调整先验概率和观察权重通过使用之前和权重名称-值参数,分别使用默认成本矩阵。

另请参阅

ClassificationLinear类

描述

建设

属性

λ- - - - - -正则化项的力量负的标量|向量的非负价值

学习者- - - - - -线性分类模型类型“物流”|“支持向量机”

β- - - - - -线性系数估计数值向量

偏见- - - - - -估计偏差数字标量

FittedLoss- - - - - -损失函数用于符合线性模型“枢纽”|分对数的

正则化- - - - - -复杂性处罚类型“套索(L1)”|“岭(L2)”

CategoricalPredictors- - - - - -分类预测指标向量的正整数|[]

一会- - - - - -独特的类标签分类数组|字符数组|逻辑向量|数值向量|单元阵列的特征向量

成本- - - - - -误分类代价广场数字矩阵

ModelParameters- - - - - -参数用于训练模型结构

PredictorNames- - - - - -预测的名字单元阵列的特征向量

ExpandedPredictorNames- - - - - -扩大了预测的名字单元阵列的特征向量

之前- - - - - -前类概率数值向量

ResponseName- - - - - -响应变量名特征向量

ScoreTransform- - - - - -分数转换函数“doublelogit”|“invlogit”|“ismax”|分对数的|“没有”|函数处理|……

对象的功能

复制语义

例子

火车线性分类模型

使用线性分类模型预测类标签

扩展功能

C / c++代码生成生成C和c++代码使用MATLAB®编码器™。

版本历史

R2022a:成本属性存储指定的成本矩阵

另请参阅

`λ`- - - - - -正则化项的力量
负的标量|向量的非负价值

`学习者`- - - - - -线性分类模型类型
`“物流”`|`“支持向量机”`

`β`- - - - - -线性系数估计
数值向量

`偏见`- - - - - -估计偏差
数字标量

`FittedLoss`- - - - - -损失函数用于符合线性模型
`“枢纽”`|`分对数的`

`正则化`- - - - - -复杂性处罚类型
`“套索(L1)”`|`“岭(L2)”`

`CategoricalPredictors`- - - - - -分类预测指标
向量的正整数|`[]`

`一会`- - - - - -独特的类标签
分类数组|字符数组|逻辑向量|数值向量|单元阵列的特征向量

`成本`- - - - - -误分类代价
广场数字矩阵

`ModelParameters`- - - - - -参数用于训练模型
结构

`PredictorNames`- - - - - -预测的名字
单元阵列的特征向量

`ExpandedPredictorNames`- - - - - -扩大了预测的名字
单元阵列的特征向量

`之前`- - - - - -前类概率
数值向量

`ResponseName`- - - - - -响应变量名
特征向量

`ScoreTransform`- - - - - -分数转换函数
`“doublelogit”`|`“invlogit”`|`“ismax”`|`分对数的`|`“没有”`|函数处理|……

C / c++代码生成
生成C和c++代码使用MATLAB®编码器™。

R2022a:`成本`属性存储指定的成本矩阵