朴素贝叶斯分类
朴素贝叶斯分类器的设计初衷是在每个类中的预测器彼此独立的情况下使用,但即使在独立假设不成立的情况下,它在实践中似乎也能很好地工作。它分两步对数据进行分类:
训练步骤:使用训练数据,该方法估计概率分布的参数,假设预测器是有条件独立的给定类。
预测步骤:对于任何不可见的测试数据,该方法计算该样本属于每一类的后验概率。该方法根据最大后验概率对试验数据进行分类。
类条件独立性假设极大地简化了训练步骤,因为您可以单独估计每个预测器的一维类条件密度。虽然预测因子之间的类-条件独立通常不是真的,但研究表明,这种乐观的假设在实践中很有效。预测器的类条件独立性的假设允许朴素贝叶斯分类器在使用比许多其他分类器更少的训练数据的情况下估计精确分类所需的参数。这使得它对于包含许多预测器的数据集特别有效。
金宝app支持分布
朴素贝叶斯分类的训练步骤是基于估计的P(X|Y),预测因子的概率或概率密度X
给定类Y
.朴素贝叶斯分类模型ClassificationNaiveBayes
还有训练功能fitcnb
提供对正态(高斯金宝app)、核、多项和多元、多项预测器条件分布的支持。要指定预测器的分布,请使用DistributionNames
的名值对参数fitcnb
.通过提供与分布名称对应的字符向量或字符串标量,可以为所有预测器指定一种类型的分布,或者通过提供长度为预测器指定不同的分布D字符向量的字符串数组或单元格数组,其中D是预测数(即列数)吗X).
正态(高斯)分布
的“正常”
分布(指定使用“正常”
)适用于在各类中具有正态分布的预测因子。对于使用正态分布建模的每个预测器,朴素贝叶斯分类器通过计算该类训练数据的平均值和标准差来估计每个类的单独正态分布。
内核分配
的“内核”
分布(指定使用“内核”
)适用于具有连续分布的预测因子。它不需要一个强大的假设,如正态分布,你可以使用它的情况下,预测器的分布可能是倾斜的或有多个峰值或模态。它比正态分布需要更多的计算时间和更多的内存。对于使用核分布建模的每个预测器,朴素贝叶斯分类器根据每个类的训练数据为每个类计算单独的核密度估计。默认情况下,内核是普通内核,分类器自动为每个类和预测器选择宽度。该软件支持为每个预测器指定金宝app不同的内核,并为每个预测器或类指定不同的宽度。
多元多项式分布
多变量、多项分布(指定using“mvmn”
)适用于观察结果是绝对的预测者。下面描述使用多元多项式预测器构建朴素贝叶斯分类器。为了说明这些步骤,考虑这样一个例子,其中观察值被标记为0、1或2,并且在进行采样时使用天气预报。
记录在整个预测者的观察中所代表的不同类别。例如,不同的类别(或预测级别)可能包括晴、雨、雪和多云。
根据反应类别将观察结果分开。例如,将标记为0的观察与标记为1和2的观察分开,将标记为1的观察与标记为2的观察分开。
对于每个响应类别,使用类别的相对频率和观察总数拟合一个多项模型。例如,对于标记为0的观测结果,它是晴天的估计概率为 =(标签为0的阳光观测数)/(标签为0的观测数),其他类别和响应标签类似。
类条件的多项随机变量包含一个多元多项随机变量。
下面是使用多元多项式的朴素贝叶斯分类器的其他一些性质。
对于每个用多元多项式分布建模的预测器,朴素贝叶斯分类器:
为每个预测器记录一组不同的预测器水平
为每个类别的预测器级别集计算单独的概率集。
该软件支持将连续预测器建模金宝app为多元多项式。在这种情况下,预测器水平是测量的不同出现。这可能导致一个预测器有很多预测水平。离散化这样的预测器是一种很好的做法。
如果一个观察是固定数量的独立试验中各种类别(由所有预测器表示)的成功集合,然后指定预测器组成一个多项分布。详情请参见多项分布.
多项分布
多项式分布(指定using“DistributionNames”、“锰”
)是合适的,当给定类,每个观察是一个多项随机变量。也就是说,观察,或者排,j预测数据X代表D类别,xjd为类别(即预测器)的成功次数。d在
独立的试验。接下来概述训练朴素贝叶斯分类器的步骤。
对于每个类,为给定的类的预测因子拟合多项式分布:
综合加权,类别计数超过所有观察。此外,该软件实现了加性平滑[1].
估算D使用聚合的类别计数,每个类别内的类别概率。这些类别概率构成了多项分布的概率参数。
让一个新的观察有一个总数米.然后,朴素贝叶斯分类器:
将每个多项分布的总计数参数设置为米
对于每个类,使用估计的多项式分布估计类的后验概率
将观察结果预测到对应最高后验概率的类中
考虑所谓的令牌袋模型,其中有一个包,其中包含许多不同类型和比例的令牌。每个预测器表示包中不同类型的标记,观察结果是n从包中独立提取(即替换)令牌,数据是计数的向量,其中元素d次数是象征性的吗d出现了。
机器学习应用程序是构建电子邮件垃圾分类器,其中每个预测器代表一个单词、字符或短语(即标记),一个观察结果是一封电子邮件,数据是电子邮件中标记的计数。一个预测者可能会计算感叹号的数量,另一个可能会计算“钱”这个词出现的次数,还有一个可能会计算收件人的名字出现的次数。这是一个朴素的贝叶斯模型,进一步假设令牌的总数(或文档的总长度)与响应类无关。
使用多项观察的朴素贝叶斯分类器的其他性质包括:
分类是基于类别的相对频率。如果nj观测= 0j,那么就不可能对该观察进行分类。
预测因子不是条件独立的,因为它们的和必须为nj.
朴素贝叶斯不适用于nj提供关于类的信息。也就是说,这个分类器需要这样做nj独立于类。
如果指定预测器是有条件多项的,则软件将此规范应用于所有预测器。换句话说,你不能包含
“锰”
在单元格数组中指定“DistributionNames”
.
如果一个预测是绝对的,即在响应类中是多项的,然后指定它是多元多项的。详情请参见多元多项式分布.
参考文献
[1] C. D.曼宁,P.拉加万,M. Schütze。信息检索导论纽约:剑桥大学出版社,2008。