主要内容

ClassificationLinear类

线性模型的二进制高维数据的分类

描述

ClassificationLinear是一个训练有素的线性模型对象二进制分类;线性模型是一个支持向量机(SVM)或逻辑回归金宝app模型。fitclinear符合一个ClassificationLinear模型通过最小化目标函数的使用技术,减少计算时间为高维数据集(例如,随机梯度下降法)。分类损失+目标函数的正则化项组成。

与其他分类模型,对经济的内存使用情况,ClassificationLinear模型对象不存储训练数据。然而,他们做的商店,例如,估计线性模型系数,prior-class概率,正规化的力量。

您可以使用训练ClassificationLinear模型来预测新数据标签或分类的分数。有关详细信息,请参见预测

建设

创建一个ClassificationLinear对象的使用fitclinear

属性

全部展开

线性分类属性

正则化项,指定为负的标量或矢量非负价值。

数据类型:|

线性分类模型类型,指定为“物流”“支持向量机”

在这个表中, f ( x ) = x β + b

  • β是一个向量的p系数。

  • x是一个观察从p预测变量。

  • b是标量的偏见。

价值 算法 损失函数 FittedLoss价值
“支持向量机” 金宝app支持向量机 铰链: ( y , f ( x ) ] = 马克斯 ( 0 , 1 y f ( x ) ] “枢纽”
“物流” 逻辑回归 异常(物流): ( y , f ( x ) ] = 日志 { 1 + 经验值 ( y f ( x ) ] } 分对数的

线性系数的估计,指定为一个数值向量长度等于预测的数量。

数据类型:

估计偏差或拦截模型,指定为数字标量。

数据类型:

这个属性是只读的。

损失函数用于符合线性模型,指定为“枢纽”分对数的

价值 算法 损失函数 学习者价值
“枢纽” 金宝app支持向量机 铰链: ( y , f ( x ) ] = 马克斯 ( 0 , 1 y f ( x ) ] “支持向量机”
分对数的 逻辑回归 异常(物流): ( y , f ( x ) ] = 日志 { 1 + 经验值 ( y f ( x ) ] } “物流”

复杂性处罚类型,指定为“套索(L1)”“岭(L2)”

软件组成的目标函数最小化的平均损失函数(见的总和FittedLoss从这个表)和正则化的价值。

价值 描述
“套索(L1)” 套索(l1)罚款: λ j = 1 p | β j |
“岭(L2)” 脊(l2)罚款: λ 2 j = 1 p β j 2

λ指定了正则化项强度(见λ)。

软件不包括偏差项(β0从正则化处罚)。

其他分类属性

分类预测指标,指定为一个向量的正整数。CategoricalPredictors包含索引值表明相应的预测分类。索引值介于1和p,在那里p预测的数量被用来训练模型。如果所有的预测都直言,那么这个属性是空的([])。

数据类型:|

独特的类标签用于培训,指定为一个类别或字符数组,逻辑或数值向量,或单元阵列的特征向量。一会具有相同的数据类型的类标签吗Y(软件对字符串数组作为细胞阵列特征向量)。一会也决定了课堂秩序。

数据类型:分类|字符|逻辑|||细胞

这个属性是只读的。

误分类代价,指定为一个正方形数字矩阵。成本K行和列,K类的数量。

成本(,j)是一个指向类分类的成本j如果它真正的类。的行和列的顺序成本对应于类的顺序一会

数据类型:

参数用于训练ClassificationLinear模型,指定为一个结构。

访问字段ModelParameters使用点符号。例如,访问线性系数的相对公差和偏差项使用Mdl.ModelParameters.BetaTolerance

数据类型:结构体

预测出他们名字的顺序出现在预测数据,指定为一个单元阵列的特征向量。的长度PredictorNames等于在训练数据变量的数量X资源描述作为预测变量。

数据类型:细胞

扩展预测名称,指定为一个单元阵列的特征向量。

如果分类变量的模型使用的编码,那么ExpandedPredictorNames包括名称,描述变量扩展。否则,ExpandedPredictorNames是一样的PredictorNames

数据类型:细胞

这个属性是只读的。

类概率之前,指定为一个数值向量。之前尽可能多的元素类一会和元素的顺序对应的元素一会

数据类型:

响应变量名称,指定为一个特征向量。

数据类型:字符

分数转换函数适用于预测分数,指定为一个函数名或函数处理。

线性分类模型在转换之前,预测分类评分的观察x(行向量)f(x)=xβ+b,在那里βb对应于Mdl.BetaMdl.Bias,分别。

改变分数转换函数,例如,函数,使用点符号。

  • 对于一个内置的函数,输入这个代码和替换函数表中的值。

    Mdl。ScoreTransform = '函数”;

    价值 描述
    “doublelogit” 1 / (1 +e2x)
    “invlogit” 日志(x/ (1 -x))
    “ismax” 集类的分数最大的分数为1,并设置所有其他类的分数为0
    “分对数” 1 / (1 +e- - - - - -x)
    “没有”“身份” x(转换)
    “标志” 1x< 0
    为0x= 0
    1x> 0
    “对称” 2x- 1
    “symmetricismax” 集合类的分数最大的分数为1,和所有其他类的分数设置为1
    “symmetriclogit” 2 / (1 +e- - - - - -x)- 1

  • 对于一个MATLAB®函数,或者您定义一个函数,输入函数处理。

    Mdl。ScoreTransform = @函数;

    函数必须接受一个矩阵的原始分数为每个类,然后返回一个相同大小的矩阵表示为每一个类转换后的分数。

数据类型:字符|function_handle

对象的功能

边缘 分类边缘线性分类模型
incrementalLearner 线性模型转换为二进制增量学习分类
石灰 本地可model-agnostic解释(石灰)
损失 分类损失线性分类模型
保证金 分类利润率为线性分类模型
partialDependence 计算部分依赖
plotPartialDependence 创建部分依赖图(PDP)和个人条件期望(ICE)情节
预测 预测线性分类模型的标签
沙普利 沙普利值
selectModels 选择的子集正规化、二进制线性分类模型
更新 更新模型参数代码生成

复制语义

价值。学习如何价值类影响复制操作,明白了复制对象

例子

全部折叠

火车一个二进制线性使用支持向量机分类模型,双SGD,脊正规化。金宝app

加载NLP数据集。

负载nlpdata

X是一个稀疏矩阵的预测数据,Y是一个分类向量类的标签。有两个以上的类的数据。

确定对应的标签统计和机器学习工具箱™文档web页面。

Ystats = Y = =“统计数据”;

火车一个二进制,线性分类模型,该模型可以确定这个词项在文档web页面是否从统计和机器学习工具箱™文档。使用整个数据集训练模型。确定如何优化算法适应模型数据通过提取与总结。

rng (1);%的再现性[Mdl, FitInfo] = fitclinear (X, Ystats)
Mdl = ClassificationLinear ResponseName:“Y”类名:[0 1]ScoreTransform:“没有一个”测试:[34023 x1双]偏见:-1.0059λ:3.1674 e-05学习者:“支持向量机”属性,方法
FitInfo =结构体字段:λ:3.1674 e-05目的:5.3783 e-04 PassLimit: 10 NumPasses: 10 BatchLimit: [] NumIterations: 238561 GradientNorm:南GradientTolerance: 0 RelativeChangeInBeta: 0.0562 BetaTolerance: 1.0000 e-04 DeltaGradient: 1.4582 DeltaGradientTolerance: 1 TerminationCode: 0 TerminationStatus:{“迭代超过限制。'}α(31572 x1双):历史:[]FitTime: 0.8858解决:{“双重”}

Mdl是一个ClassificationLinear模型。你可以通过Mdl和培训或新数据损失检查样本分类错误。或者,你也可以通过Mdl和新的预测数据预测预测类标签的新观察。

FitInfo是一个结构数组包含,除此之外,终止状态(TerminationStatus)和多长时间解决了适合模型的数据(FitTime)。是一种很好的做法FitInfo确定optimization-termination测量是否令人满意。因为培训时间很小,你可以试着重新训练模型,但增加通过的数量数据。这可以改善措施DeltaGradient

加载NLP数据集。

负载nlpdatan =大小(X, 1);%的观察

确定对应的标签统计和机器学习工具箱™文档web页面。

Ystats = Y = =“统计数据”;

坚持5%的数据。

rng (1);%的再现性本量利= cvpartition (n,“坚持”,0.05)
本量利=抵抗交叉验证分区NumObservations: 31572 NumTestSets: 1 TrainSize: 29994 TestSize: 1578

本量利是一个CVPartition对象定义了随机分区n数据分为训练集和测试集。

火车一个二进制,使用训练集线性分类模型可以确定这个词项在文档web页面从统计和机器学习工具箱™文档。为更快的训练时间,东方的预测数据矩阵,以便观察列。

idxTrain =培训(cvp);%提取训练集指标X = X ';Mdl = fitclinear (X (:, idxTrain) Ystats (idxTrain),“ObservationsIn”,“列”);

观察和预测样本分类错误的坚持。

idxTest =测试(cvp);%提取测试集指标标签=预测(Mdl X (:, idxTest),“ObservationsIn”,“列”);L =损失(Mdl X (:, idxTest) Ystats (idxTest),“ObservationsIn”,“列”)
L = 7.1753 e-04

Mdl分类少于1%的样本外观察。

扩展功能

版本历史

介绍了R2016a

全部展开

行为改变R2022a