主要内容

预测

类:ClassificationLinear

预测线性分类模型的标签

描述

例子

标签=预测(Mdl,X)返回预测类标签对每个观察预测数据X基于训练,二元线性分类模型Mdl标签包含每个正则化力量类标签Mdl

例子

标签=预测(Mdl,X“ObservationsIn”,)指定了预测数据观察维度“行”(默认)或“列”。例如,指定“ObservationsIn”、“列”预测数据表明列对应于观测。

例子

(标签,分数)=预测(___)同样的回报分类的分数对两类使用任何输入参数组合在前面的语法。分数包含分类得分为每个正则化的力量Mdl

输入参数

全部展开

二元线性分类模型,指定为ClassificationLinear模型对象。您可以创建一个ClassificationLinear模型对象使用fitclinear

预测数据分类,指定为一个完整的或稀疏的数字矩阵或表。

默认情况下,每一行X对应于一个观察,每一列对应一个变量。

  • 一个数字矩阵:

    • 变量的列X必须有相同的订单预测变量,训练吗Mdl

    • 如果你训练Mdl使用一个表(例如,资源描述),资源描述只包含数字预测变量,然后X可以是一个数字矩阵。将数值预测资源描述分类在训练、识别分类预测使用CategoricalPredictors名称-值对的观点fitclinear。如果资源描述包含了异构预测变量(例如,数字和分类数据类型)X是一个数字矩阵,然后呢预测抛出一个错误。

  • 一个表:

    • 预测不支持多列变量或细金宝app胞数组以外的细胞阵列的特征向量。

    • 如果你训练Mdl使用一个表(例如,资源描述),那么所有的预测变量X必须有相同的变量名和数据类型的变量训练吗Mdl(存储在Mdl.PredictorNames)。然而,列的顺序X不需要对应的列顺序资源描述。同时,资源描述X可以包含额外的变量(响应变量,观察体重、等等),但预测忽略了它们。

    • 如果你训练Mdl使用一个数字矩阵,然后预测名称Mdl.PredictorNames必须与相应的预测变量的名字X。使用指定预测名称在训练PredictorNames名称-值对的观点fitclinear。所有的预测变量X必须是数值向量。X可以包含额外的变量(响应变量,观察体重、等等),但预测忽略了它们。

请注意

如果你东方预测矩阵,以便观察并指定对应列“ObservationsIn”、“列”,那么你可能会经历显著减少优化执行时间。你不能指定“ObservationsIn”、“列”预测数据表。

数据类型:||

预测数据观察维度,指定为“列”“行”

请注意

如果你东方预测矩阵,以便观察并指定对应列“ObservationsIn”、“列”,那么你可能会经历显著减少优化执行时间。你不能指定“ObservationsIn”、“列”预测数据表。

输出参数

全部展开

预测类标签,作为分类或字符数组,返回逻辑或数字矩阵、单元阵列的特征向量。

在大多数情况下,标签是一个n——- - - - - -l观察到的相同的数据类型数组类标签(Y)用来训练Mdl(软件对字符串数组作为细胞阵列特征向量)。n观察的数量吗Xl正规化的数量优势在吗Mdl.Lambda。也就是说,标签(,j)观察预测类标签吗使用线性分类模型正规化的力量Mdl.Lambda (j)

如果Y是一个字符数组,l> 1,那么标签是一个单元阵列的类标签。

分类的分数,返回n2 -l数字数组。n观察的数量吗Xl正规化的数量优势在吗Mdl.Lambda评分(,k,j)分类观察分数吗成类k使用线性分类模型正规化的力量Mdl.Lambda (j)Mdl.ClassNames存储类的顺序。

如果Mdl.Learner“物流”,然后分类分数是后验概率。

例子

全部展开

加载NLP数据集。

负载nlpdata

X是一个稀疏矩阵的预测数据,Y是一个分类向量类的标签。有两个以上的类的数据。

模型应该确定是否这个词项在一个web页面的统计和机器学习工具箱™文档。所以,确定对应的标签统计和机器学习的工具箱™文档web页面。

Ystats = Y = =“统计数据”;

火车一个二进制,线性分类模型使用整个数据集,可以识别词项在文档web页面是否从统计和机器学习工具箱™文档。

rng (1);%的再现性Mdl = fitclinear (X, Ystats);

Mdl是一个ClassificationLinear模型。

预测推理、resubstitution标签。

标签=预测(Mdl X);

因为有一个正规化的力量Mdl,标签列向量的长度等于观测的数量。

构造一个混淆矩阵。

ConfusionTrain = confusionchart (Ystats、标签);

图包含一个ConfusionMatrixChart类型的对象。

模型分类只有一个“统计数据”外的文档页面作为统计和机器学习工具箱文档。

加载NLP数据集进行预处理,如预测推理标签。转置矩阵的预测数据。

负载nlpdataYstats = Y = =“统计数据”;X = X ';

火车一个二进制,线性分类模型,该模型可以确定这个词项在文档web页面是否从统计和机器学习工具箱™文档。指定坚持30%的观察。使用SpaRSA优化目标函数。

rng (1)%的再现性Ystats CVMdl = fitclinear (X,“规划求解”,“sparsa”,“坚持”,0.30,“ObservationsIn”,“列”);Mdl = CVMdl.Trained {1};

CVMdl是一个ClassificationPartitionedLinear模型。它包含属性训练有素的,这是一个1×1单元阵列举行ClassificationLinear使用训练集模型的软件培训。

从分区中提取的训练和测试数据的定义。

trainIdx =培训(CVMdl.Partition);testIdx =测试(CVMdl.Partition);

预测的训练和测试样本的标签。

labelTrain =预测(Mdl X (:, trainIdx),“ObservationsIn”,“列”);labelTest =预测(Mdl X (:, testIdx),“ObservationsIn”,“列”);

因为有一个正规化的力量Mdl,labelTrainlabelTest列向量的长度等于数量的训练和测试观察,分别。

训练数据构建一个混淆矩阵。

ConfusionTrain = confusionchart (Ystats (trainIdx) labelTrain);

图包含一个ConfusionMatrixChart类型的对象。

模型分类只有三个文档页面统计和机器学习的工具箱作为外部文档。

构造一个混淆矩阵的测试数据。

ConfusionTest = confusionchart (Ystats (testIdx) labelTest);

图包含一个ConfusionMatrixChart类型的对象。

模型分类三个文档页面外的统计和机器学习的工具箱,里面和两页。

估计测试样本,后类概率,确定模型的质量通过绘制ROC曲线。线性分类logistic回归模型返回后验概率的学习者。

加载NLP数据集进行预处理,如预测测试样本的标签

负载nlpdataYstats = Y = =“统计数据”;X = X ';

分区数据随机分成训练集和测试集通过指定一个抵抗样本的30%。识别测试集指标。

本量利= cvpartition (Ystats,“坚持”,0.30);idxTest =测试(cvp);

火车一个二进制线性分类模型。符合逻辑回归使用SpaRSA学习者。测试集的,指定分区模型。

Ystats CVMdl = fitclinear (X,“ObservationsIn”,“列”,“CVPartition”、本量利、“学习者”,“物流”,“规划求解”,“sparsa”);Mdl = CVMdl.Trained {1};

Mdl是一个ClassificationLinear模型使用训练集训练中指定的分区本量利只有。

概率预测试样后类。

[~,后]=预测(Mdl X (:, idxTest),“ObservationsIn”,“列”);

因为有一个正规化的力量Mdl,是一个矩阵,2列和行等于测试集观测的数量。列包含的后验概率Mdl.ClassNames(我)给定一个特定的观察。

获得假和真阳性率,估计AUC。指定第二个类是积极的类。

(玻璃钢,tpr, ~, auc) = perfcurve (Ystats (idxTest)、后(:,2),Mdl.ClassNames (2));auc
auc = 0.9986

AUC是1,这表明一个模型,该模型预测。

绘制ROC曲线。

图;甘氨胆酸的阴谋(玻璃钢,tpr) h =;h.XLim (1) = -0.1;h.YLim (2) = 1.1;包含(的假阳性率)ylabel (“真阳性率”)标题(“ROC曲线”)

图包含一个坐标轴对象。坐标轴对象与标题ROC曲线包含一个类型的对象。

中华民国曲线和AUC表明模型分类测试样本观察几乎完全。

确定好lasso-penalty强度线性分类模型,使用逻辑回归的学习者,AUC的测试样本的值进行比较。

加载NLP的数据集,数据的预处理预测测试样本的标签

负载nlpdataYstats = Y = =“统计数据”;X = X ';

创建一个指定的数据分区坚持10%的观察。提取测试样本指标。

rng (10);%的再现性分区= cvpartition (Ystats,“坚持”,0.10);testIdx =测试(分区);XTest = X (:, testIdx);n =总和(testIdx)
n = 3157
欧美= Ystats (testIdx);

有3157的观察测试样品。

创建一组11对数间隔正则化的优势 1 0 - - - - - - 6 通过 1 0 - - - - - - 0 5

-0.5λ= logspace(6日,11);

火车二进制,线性分类模型,使用每一种正则化的优势。使用SpaRSA优化目标函数。降低目标函数的梯度的宽容1 e-8

Ystats CVMdl = fitclinear (X,“ObservationsIn”,“列”,“CVPartition”分区,“学习者”,“物流”,“规划求解”,“sparsa”,“正规化”,“套索”,“λ”λ,“GradientTolerance”1 e-8)
CVMdl = ClassificationPartitionedLinear CrossValidatedModel:“线性”ResponseName:“Y”NumObservations: 31572 KFold: 1分区:[1 x1 cvpartition]类名:[0 1]ScoreTransform:“没有一个”属性,方法

提取训练线性分类模型。

Mdl1 = CVMdl.Trained {1}
Mdl1 = ClassificationLinear ResponseName:“Y”类名:[0 1]ScoreTransform:分对数的β:[34023 x11双]偏见:[-11.9423 -11.9423 -11.9423 -11.9423 -8.6627 -6.3558……λ:[1.0000 4.4668 1.2589 3.5481 e-06 e-06 e-05 e-05……学习者:“物流”属性,方法

Mdl是一个ClassificationLinear模型对象。因为λ是一个序列的正则化的优势,你能想到什么Mdl11岁的模型,每个正规化的力量在一个λ

估计测试样本预测类标签和后概率。

(标签,后)=预测(Mdl1 XTest,“ObservationsIn”,“列”);Mdl1.ClassNames;后(3、1、5)
ans = 1.0000

标签3157 - 11矩阵的预测标签。每一列对应于模型的预测标签使用对应的正规化训练强度。是3157年由- 11 - 2矩阵后类的概率。列对应类和页面对应的正则化优势。例如,后(3、1、5)表明,第一节课的后验概率(标签0)是分配给观察3的模型使用λ(5)作为一个正规化的力量是1.0000。

对于每个模型,计算出AUC。指定第二课堂积极类。

auc = 1:元素个数(λ);%预先配置j = 1:元素个数(λ)[~,~,~,auc (j)] = perfcurve(欧美,后(:,2,j), Mdl1.ClassNames (2));结束

更高的值λ导致预测变量较少,这是一个很好的分类器的质量。对于每一个正规化的力量,训练一个线性分类模型使用整个数据集和训练模型时相同的选项。确定数量的非零系数模型。

Mdl = fitclinear (X, Ystats“ObservationsIn”,“列”,“学习者”,“物流”,“规划求解”,“sparsa”,“正规化”,“套索”,“λ”λ,“GradientTolerance”1 e-8);numNZCoeff = (Mdl.Beta ~ = 0)之和;

在同一人物,情节的测试样本错误率和频率非零系数为每个正则化的力量。所有变量在对数尺度的阴谋。

图;[h, hL1, hL2] = plotyy (log10(λ)log10 (auc),log10(λ)log10 (numNZCoeff + 1));hL1。标志=“o”;hL2。标志=“o”;ylabel (h (1),“log_ {10} AUC的)ylabel (h (2),“log_ {10} nonzero-coefficient频率”)包含(“log_{10}λ的)标题(测试样本统计的)举行

图包含2轴对象。坐标轴对象1标题测试样本数据包含一个类型的对象。坐标轴对象2包含一个类型的对象。

选择平衡的正则化强度指数预测变量稀疏,AUC高。在这种情况下,一个值之间 1 0 - - - - - - 2 1 0 - - - - - - 1 应该足够了。

idxFinal = 9;

选择的模型Mdl选择正则化的力量。

idxFinal MdlFinal = selectModels (Mdl);

MdlFinal是一个ClassificationLinear模型包含一个正规化的力量。为新观测估计标签,通过MdlFinal和新数据预测

更多关于

全部展开

扩展功能

介绍了R2016a