主要内容

朴素贝叶斯分类

朴素贝叶斯分类器是为每个类中的预测器彼此独立而设计的,但即使在独立性假设不成立的情况下,它在实践中也能很好地工作。它分两步对数据进行分类:

  1. 训练步骤:使用训练数据,该方法估计概率分布的参数,假设预测器在给定的类是条件独立的。

  2. 预测步骤:对于任何不可见的测试数据,该方法计算该样本属于每个类的后验概率。然后根据最大后验概率对测试数据进行分类。

类条件独立性假设极大地简化了训练步骤,因为您可以单独估计每个预测器的一维类条件密度。虽然预测因子之间的类别条件独立性通常不成立,但研究表明,这种乐观的假设在实践中很有效。预测器的类条件独立性的假设允许朴素贝叶斯分类器在使用比许多其他分类器更少的训练数据的情况下估计精确分类所需的参数。这使得它对于包含许多预测器的数据集特别有效。

金宝app支持分布

朴素贝叶斯分类的训练步骤是基于估计的PX|Y)表示预测因子的概率或概率密度X给定类Y.朴素贝叶斯分类模型ClassificationNaiveBayes以及训练功能fitcnb提供对正态(高斯金宝app),核,多项式,和多元,多项预测条件分布的支持。要指定预测器的分布,请使用DistributionNames的名称-值对参数fitcnb.通过提供与分布名称对应的字符向量或字符串标量,可以为所有预测器指定一种类型的分布,或者通过提供长度为预测器指定不同的分布D字符串数组或单元格数组的字符向量,其中D预测器的数量(即列的数量)X).

正态(高斯)分布

“正常”分发(指定使用“正常”)适用于在每个类中具有正态分布的预测器。对于每个用正态分布建模的预测器,朴素贝叶斯分类器通过计算该类训练数据的平均值和标准差来估计每个类的单独正态分布。

内核分配

“内核”分发(指定使用“内核”)适用于具有连续分布的预测因子。它不需要很强的假设,比如正态分布,你可以在预测器的分布可能倾斜或有多个峰值或模态的情况下使用它。它比正态分布需要更多的计算时间和内存。对于每个用核分布建模的预测器,朴素贝叶斯分类器根据每个类的训练数据计算每个类的独立核密度估计。默认情况下,核是正常核,分类器自动为每个类和预测器选择一个宽度。该软件支持为每个预测器指定金宝app不同的内核,并为每个预测器或类指定不同的宽度。

多元多项式分布

多变量,多项分布(指定使用“mvmn”)适用于观察结果是绝对的预测者。下面描述了使用多元多项式预测器构建朴素贝叶斯分类器。为了说明这些步骤,考虑一个例子,其中观测值被标记为0、1或2,并且在进行样本时预测天气。

  1. 记录在整个预测者的观察中所代表的不同类别。例如,不同的类别(或预测水平)可能包括晴天、下雨、下雪和多云。

  2. 按响应类别分离观察结果。例如,将标记为0的观测值与标记为1和2的观测值分开,将标记为1的观测值与标记为2的观测值分开。

  3. 对于每个响应类别,使用类别相对频率和观察总数拟合一个多项模型。例如,对于标记为0的观测,它是晴天的估计概率为 p 年代 u n n y | 0 =(标签为0的阳光观测数)/(标签为0的观测数),其他类别和响应标签相似。

类条件多项式随机变量由多元多项式随机变量组成。

下面是使用多元多项式的朴素贝叶斯分类器的其他一些性质。

  • 对于每个用多元多项式分布建模的预测器,朴素贝叶斯分类器:

    • 为每个预测器记录一组不同的预测器水平

    • 为每个类的预测器水平集计算一组单独的概率。

  • 该软件支持将连续预测器建模金宝app为多元多项式。在这种情况下,预测器水平是测量的不同事件。这可能导致一个预测器有很多预测器水平。离散化这样的预测器是一种很好的实践。

如果一个观察是固定数量的独立试验中各种类别(由所有预测因子表示)的成功的集合,然后指定预测因子组成多项分布。详细信息请参见多项分布

多项分布

多项分布(指定使用“DistributionNames”、“锰”)是合适的,给定类,每个观察是一个多项随机变量。也就是观察,或者行,j预测数据的X代表D类别,xjd类别的成功次数(即预测器)d n j d 1 D x j d 独立的试验。下面将概述训练朴素贝叶斯分类器的步骤。

  1. 对于每个类,为给定的类的预测因子拟合一个多项分布:

    1. 综合加权,类别计数超过所有观察结果。此外,该软件实现了附加平滑[1]

    2. 估算D每个类内使用聚合类别计数的类别概率。这些类别概率构成多项分布的概率参数。

  2. 让一个新的观察有一个总数.那么,朴素贝叶斯分类器:

    1. 将每个多项分布的总计数参数设置为

    2. 对于每个类,使用估计的多项分布估计类后验概率

    3. 将观测结果预测为对应于最高后验概率的类

考虑所谓的代币袋模型,其中有一个包,其中包含许多不同类型和比例的代币。每个预测器代表袋子里的一种不同类型的标记,一个观察是n从包中独立抽取(即替换)令牌,数据是计数的向量,其中元素d次数是象征性的吗d出现了。

机器学习应用程序是电子邮件垃圾分类器的构建,其中每个预测器代表一个单词、字符或短语(即标记),一个观察值是一封电子邮件,数据是电子邮件中标记的计数。一个预测者可能会计算感叹号的数量,另一个可能会计算“钱”这个词出现的次数,还有一个可能会计算收件人名字出现的次数。这是一个朴素贝叶斯模型,进一步假设令牌总数(或文档总长度)与响应类无关。

使用多项观测的朴素贝叶斯分类器的其他属性包括:

  • 分类是基于类别的相对频率。如果nj= 0观察j,则无法对该观测进行分类。

  • 预测因子不是条件独立的,因为它们的和必须为nj

  • 朴素贝叶斯不适用于nj提供有关类的信息。也就是说,这个分类器需要这个nj与类无关。

  • 如果指定预测器是有条件多项式的,那么软件将此规范应用于所有预测器。换句话说,你不能包含“锰”在单元格数组中指定“DistributionNames”

如果一个预测是分类的,即在响应类中是多项的,然后指定它是多元多项的。详细信息请参见多元多项式分布

参考文献

[1]曼宁,c.d., P.拉格哈万,M. Schütze。信息检索概论纽约:剑桥大学出版社,2008年。

另请参阅

功能

对象

相关的话题