来自系列:应用机器学习
Seth Deland,Mathworks
使用ROC曲线评估分类模型。ROC曲线绘制真正的阳性率与阈值不同值的假阳性率。
本视频通过几个例子大致说明了什么是ROC曲线以及为什么要使用它们。它还概述了使用ROC曲线时可能遇到的有趣场景。
ROC曲线是评估分类模型的重要工具。它们也有点抽象,所以让我们先回顾一下评估模型的一些更简单的方法。
让我们使用一个与心脏的声音有关的示例。给出了一颗心的音频记录的71个不同的功能,我们试图分类心脏声音正常或异常。
要理解的最简单的指标之一是模型的准确性 - 或者,换句话说,换句话说,它是正确的。准确性是有用的,因为它是单个数字,使比较变得容易。我现在正在看的分类器的准确性为86.3%。
精确度不能告诉你模型是对还是错。对此,有一个混淆矩阵,它显示了诸如真阳性率之类的东西。在本例中,准确率为74%,这意味着分类器正确预测异常心音的准确率为74%。我们还有9%的假阳性率。这是分类器在心音正常时预测异常的速率。
混淆矩阵给出了单个模型的结果。但大多数机器学习模型不仅仅是分类,它们实际上是计算概率。该模型的混淆矩阵显示了将概率为>=0.5的任何事物分类为异常,将概率<0.5的任何事物分类为正常的结果。但这个0.5不一定是固定的,实际上我们可以在概率0到1之间的任何地方设置阈值。
这就是ROC曲线进入的地方。ROC曲线绘制真正的阳性率与该阈值不同值的假阳性率。
让我们更详细地看一下。
这是我的模型,我将在我的测试数据上运行它以获得异常心声的概率。现在让我们开始在0.5时缩小这些概率。如果我这样做,我会得到真正的阳性率为74%,假阳性率为9%。
但是,如果我们想要非常保守,那么即使心声异常的概率只是10%,我们也会将其分类为异常。
如果我们这样做,我们就会实现这一点。
如果我们想要非常确定,只把有90%可能性的声音归类为异常,那该怎么办?然后我们得到这个点,假阳性率更低,但真阳性率也更低。
现在,如果我们在0到1之间为此阈值创建一堆价值,请说出1000个试验均匀间隔,我们会得到许多这些Roc积分,这就是我们获得ROC曲线的曲线。ROC曲线向我们展示了真正阳性率和假阳性率的权衡,以实现该阈值的不同价值。
ROC曲线上总有一个点在(0,0)处。在我们的例子中,一切都被归为“正常”。在1,1处总会有一个点,所有的东西都被归为“异常”。
曲线下的面积是衡量分类器好坏的指标。一个完美的分类器的AUC是1。在本例中,AUC是0.926。
在MATLAB中,你不需要像我在这里做的那样手工做这些。你可以从perfcurve函数中得到ROC曲线和AUC。
现在我们有那么下来,让我们来看看ROC曲线的一些有趣的案例:
·如果曲线一直向上和向左,则您有一个分类器,对于某些阈值完全标记测试数据中的每一点,您的AUC是1.您有一个非常好的分类器,或者您可能需要be concerned that you don’t have enough data or that your classifier is overfit.
·如果曲线是从左下角到右上角的直线,则您的分类器不会比随机猜测更好(其AUC为0.5)。您可能想要尝试其他类型的型号或返回您的培训数据,以查看您是否可以始介更好的功能。
·如果曲线看起来有点锯齿状,有时是由于不同类型的分类器的行为。例如,决策树仅具有有限数量的判定节点,并且每个节点具有特定概率。当我们谈到的阈值迄今谈到的阈值交叉时,锯齿性来自于一个节点的一个节点。锯齿也通常来自测试数据中的差距。
从这些例子中可以看出,ROC曲线可以是评估分类器性能的简单而微妙的工具。
如果你想了解更多关于机器学习模型评估的知识,请查看下方描述中的链接。
你也可以从以下列表中选择一个网站:
选择中国网站(以中文或英文)以获取最佳网站性能。其他MathWorks国家网站未优化您的位置。