主要内容

预测

观察使用朴素贝叶斯分类器进行分类

描述

例子

标签=预测(Mdl,X)返回一个矢量预测类标签的预测数据表或矩阵X基于朴素贝叶斯分类模型训练Mdl。训练有素的朴素贝叶斯模型可以完全或紧凑。

例子

(标签,,成本)=预测(Mdl,X)还返回后验概率(),并预测(预计)误分类代价(成本)对应于观测(行)Mdl.X。为每一个观察X,预测类标签对应的最低预期分类成本在所有类。

例子

全部折叠

加载fisheriris数据集创建。X作为一个数字矩阵,包含四个花瓣测量150虹膜。创建Y作为一个单元阵列包含相应的特征向量的虹膜的物种。

负载fisheririsX =量;Y =物种;rng (“默认”)%的再现性

随机观测分割成分层的训练集和测试集,使用类的信息Y。指定一个抵抗30%样本进行测试。

简历= cvpartition (Y,“坚持”,0.30);

提取训练和测试指标。

trainInds =培训(简历);testInds =测试(简历);

指定的培训和测试数据集。

XTrain = X (trainInds:);YTrain = Y (trainInds);XTest = X (testInds:);欧美= Y (testInds);

使用预测训练朴素贝叶斯分类器XTrain和类标签YTrain。推荐的做法是指定类名。fitcnb假定每一个预测是有条件和正态分布。

Mdl = fitcnb (XTrain YTrain,“类名”,{“setosa”,“多色的”,“virginica”})
Mdl = ClassificationNaiveBayes ResponseName:‘Y’CategoricalPredictors:[]类名:{“setosa”“杂色的”“virginica”} ScoreTransform:“没有一个”NumObservations: 105 DistributionNames:{“正常”“正常”“正常”“正常”}DistributionParameters: {} 3 x4细胞属性,方法

Mdl是一个培训ClassificationNaiveBayes分类器。

预测测试样本的标签。

idx = randsample (sum (testInds), 10);标签=预测(Mdl XTest);

显示结果为一组随机的10观察测试样品。

表(欧美(idx),标签(idx),“VariableNames”,{“TrueLabel”,“PredictedLabel”})
ans =10×2表是_____________ TrueLabel PredictedLabel * * * {‘virginica} {‘virginica}{“癣”}{“癣”}{“癣”}{“癣”}{‘virginica} {‘virginica} {‘setosa} {‘setosa} {‘virginica} {‘virginica} {‘setosa} {‘setosa}{“癣”}{“癣”}{“癣”}{‘virginica}{“癣”}{“癣”}

创建一个混乱图表从真正的标签欧美和预测的标签标签

厘米= confusionchart(欧美、标签);

图包含一个ConfusionMatrixChart类型的对象。

估计后验概率和误分类新观测使用朴素贝叶斯分类器的成本。新的观察结果使用节约内存pretrained分类器进行分类。

加载fisheriris数据集创建。X作为一个数字矩阵,包含四个花瓣测量150虹膜。创建Y作为一个单元阵列包含相应的特征向量的虹膜的物种。

负载fisheririsX =量;Y =物种;rng (“默认”)%的再现性

分区数据集分为两组:一个包含训练集,和其他包含新的,未被注意的数据。储备10观察新数据集。

n =大小(X, 1);newInds = randsample (n, 10);第1 = ~ ismember (1: n, newInds);XNew = X (newInds:);YNew = Y (newInds);

使用预测训练朴素贝叶斯分类器X和类标签Y。推荐的做法是指定类名。fitcnb假定每一个预测是有条件和正态分布。

Mdl = fitcnb (X(第1:),Y(第1),“类名”,{“setosa”,“多色的”,“virginica”});

Mdl是一个培训ClassificationNaiveBayes分类器。

节省内存的大小通过减少训练朴素贝叶斯分类器。

CMdl =紧凑(Mdl);谁(“Mdl”,“CMdl”)
类属性名称大小字节CMdl 1 x1 5406 classreg.learning.classif。12731 ClassificationNaiveBayes CompactClassificationNaiveBayes Mdl 1 x1

CMdl是一个CompactClassificationNaiveBayes分类器。它使用更少的内存Mdl因为Mdl存储数据。

显示的类名CMdl使用点符号。

CMdl.ClassNames
ans =3 x1细胞{' setosa}{“癣”}{' virginica '}

预测的标签。估计后验概率和预期类误分类代价。

[标签、PostProbs MisClassCost] =预测(CMdl XNew);

比较真实的标签和预测的标签。

表(YNew、标签PostProbs MisClassCost,“VariableNames”,{“TrueLabels”,“PredictedLabels”,“PosteriorProbabilities”,“MisclassificationCosts”})
ans =10×4表TrueLabels PredictedLabels PosteriorProbabilities售予MisclassificationCosts * * * _________________________________________ ______________________________________ {‘virginica} {‘virginica} 4.0832 e - 268 4.6422 e-09 1 1 1 4.6422 e-09 {‘setosa} {‘setosa} 1 3.0706 3.0706 4.6719 e-18 e-25 e-18 1 1 {‘virginica} {‘virginica} 1.0007 e - 246 5.8758平台以及1 1 1 5.8758平台以及{“癣”}{“癣”}1.2022 e - 61 0.99995 4.9859 e-05 1 4.9859 0.99995 e-05 {‘virginica} {‘virginica} 2.687 e - 226 1.7905 e-08 1 1 1 1.7905 e-08{“癣”}{“癣”}3.3431 e - 76 0.99971 0.00028983 1 0.00028983 0.99971 {‘virginica} {‘virginica} 4.05 e - 166 0.0028527 0.99715 1 0.99715 0.0028527 {‘setosa} {‘setosa} 1 1.1272 1.1272 2.0308 e-14 e-23 e-14 1 1 {‘virginica} {‘virginica} 1.3292 e - 228 8.3604平台以及1 1 1 8.3604平台以及{‘setosa} {‘setosa} 1 4.5023 4.5023 2.1724 e-17 e-24 e-17 1 1

PostProbsMisClassCost10——- - - - - -3数字矩阵,每一行对应一个新的观察和每一列对应一个类。列的顺序对应的顺序CMdl.ClassNames

加载fisheriris数据集创建。X作为一个数字矩阵,包含150虹膜的花瓣长度和宽度的测量。创建Y作为一个单元阵列包含相应的特征向量的虹膜的物种。

负载fisheririsX =量(:,3:4);Y =物种;

使用预测训练朴素贝叶斯分类器X和类标签Y。推荐的做法是指定类名。fitcnb假定每一个预测是有条件和正态分布。

Mdl = fitcnb (X, Y,“类名”,{“setosa”,“多色的”,“virginica”});

Mdl是一个培训ClassificationNaiveBayes分类器。

定义一个网格的值观察预测空间。

xMax = max (X);xMin = min (X);h = 0.01;[x1Grid, x2Grid] = meshgrid (xMin (1): h: xMax (1) xMin (2): h: xMax (2));

预测网格中的每个实例的后验概率。

[~,PosteriorRegion] =预测(Mdl [x1Grid (:), x2Grid (:)));

后验概率区域和训练数据的阴谋。

h =散射(x1Grid (:), x2Grid (:), 1, PosteriorRegion);h。MarkerEdgeAlpha = 0.3;

图数据。

持有gh = gscatter (X (: 1), X (:, 2), Y,“k”,“dx *”);标题虹膜花瓣测量和后验概率;包含“花瓣长度(厘米)”;ylabel“花瓣宽度(cm)”;轴传奇(gh,“位置”,“最佳”)举行

图包含一个坐标轴对象。坐标轴对象与标题虹膜花瓣测量和后验概率,包含花瓣长度(厘米),ylabel花瓣宽度(cm)包含4散射类型的对象,线。一个或多个行显示的值只使用这些对象标记代表setosa, virginica杂色的。

输入参数

全部折叠

朴素贝叶斯分类模型,指定为一个ClassificationNaiveBayes模型对象或CompactClassificationNaiveBayes模型对象返回的fitcnb紧凑的,分别。

预测数据分类,指定为一个数字矩阵或表。

每一行的X对应于一个观察,每一列对应一个变量。

  • 一个数字矩阵:

    • 的变量的列X必须有相同的订单预测变量,训练吗Mdl

    • 如果你训练Mdl使用一个表(例如,资源描述),然后X可以是一个数字矩阵如果资源描述只包含数字预测变量。将数值预测资源描述分类在训练、识别分类预测使用“CategoricalPredictors”名称-值对的观点fitcnb。如果资源描述包含了异构预测变量(例如,数字和分类数据类型)X是一个数字矩阵,然后呢预测抛出一个错误。

  • 一个表:

    • 预测不支持多列变量或细金宝app胞数组以外的细胞阵列的特征向量。

    • 如果你训练Mdl使用一个表(例如,资源描述),那么所有的预测变量X必须有相同的变量名和数据类型的变量训练吗Mdl(存储在Mdl.PredictorNames)。然而,列的顺序X不需要对应的列顺序资源描述资源描述X可以包含额外的变量(响应变量,观察体重、等等),但预测忽略了它们。

    • 如果你训练Mdl使用一个数字矩阵,然后预测名称Mdl.PredictorNames必须与相应的预测变量的名字X。指定预测的名字在训练,使用的PredictorNames的名称-值对的论点fitcnb。所有的预测变量X必须是数值向量。X可以包含额外的变量(响应变量,观察体重、等等),但预测忽略了它们。

数据类型:||

注:

  • 如果Mdl.DistributionNames“锰”,然后恢复软件对应于行X包含至少一个

  • 如果Mdl.DistributionNames不是“锰”,那么软件忽略当估计误分类代价和后验概率值。具体地说,软件计算的条件密度预测给定类的离开了相对应的因素缺失的预测价值。

  • 为预测分配指定为“mvmn”,如果X在训练数据中包含的水平并不代表(也就是说,没有Mdl.CategoricalLevels的预测),然后预测给定类的条件密度为0。对于那些观察,软件返回相应的值作为一个。软件决定这种观测使用的类标签类存储在先验概率Mdl.Prior

输出参数

全部折叠

预测类标签,作为分类向量,返回字符数组,逻辑或数值向量,或单元阵列的特征向量。

预测类标签有以下:

  • 观察到的类标签(数据类型一样Mdl.Y)。(软件对字符串数组作为细胞阵列特征向量)。

  • 长度的行数Mdl.X

  • 类预期收益率最低的误分类成本(成本)。

后验概率,返回一个数字矩阵。行等于的行数的Mdl.X和列等于截然不同的类的数目在训练数据(尺寸(Mdl.ClassNames, 1))。

后(j, k)是类的后验概率预测k(在课堂上Mdl.ClassNames (k)鉴于连续观测jMdl.X

预期误分类代价,返回一个数字矩阵。成本行等于的行数的Mdl.X和列等于截然不同的类的数目在训练数据(尺寸(Mdl.ClassNames, 1))。

成本(j, k)是预期的误分类代价的观察行吗jMdl.X预测到类k(在课堂上Mdl.ClassNames (k))。

更多关于

全部折叠

误分类代价

一个误分类代价分类器的相对严重程度标签是一个观察到错误的类。

存在两种类型的误分类代价:真正的和预期。让K类的数量。

  • 真正的误分类代价——一个K——- - - - - -K矩阵,元素(,j)表示一个观察到类分类的成本j如果它真正的类。软件商店的误分类代价的财产Mdl.Cost在计算,并使用它。默认情况下,Mdl.Cost (i, j)= 1,如果j,Mdl.Cost (i, j)= 0,如果=j。换句话说,是成本0正确的分类和1对于任何不正确的分类。

  • 预期的误分类代价——一个K维向量,元素k分类的加权平均成本是一个观察到课吗k,由类的后验概率加权。

    c k = j = 1 K P ^ ( Y = j | x 1 , , x P ) C o 年代 t j k

    换句话说,软件将观察分为类预期最低的误分类代价。

后验概率

后验概率的概率是一个观察属于一个特定的类,考虑到数据。

朴素贝叶斯的分类是后验概率k对于一个给定的观察(x1、……xP)是

P ^ ( Y = k | x 1 , 。。 , x P ) = P ( X 1 , , X P | y = k ) π ( Y = k ) P ( X 1 , , X P ) ,

地点:

  • P ( X 1 , , X P | y = k ) 的条件联合密度预测给他们上课吗kMdl.DistributionNames存储分布预测的名字。

  • π(Y=k)是类的先验概率分布。Mdl.Prior存储先验分布。

  • P ( X 1 , 。。 , X P ) 是联合密度的预测因子。类是离散的,所以 P ( X 1 , , X P ) = k = 1 K P ( X 1 , , X P | y = k ) π ( Y = k )

先验概率

先验概率类的的假设相对频率观察类发生在一个人口。

扩展功能

版本历史

介绍了R2014b