ROC曲线

机器学习分类模型的性能进行评估

接受者操作特性曲线(ROC曲线)是评价的一个重要工具性能的机器学习模型。他们最常用的二元分类问题——那些有两个不同的输出类。中华民国曲线显示了真阳性率之间的关系(TPR)模型和假阳性率(玻璃钢)。TPR的速率是分类器预测“积极”“积极的观察。“玻璃钢的速率分类器预测“积极”的观察,实际上是“负的。“一个完美的分类器将TPR的1和0的玻璃钢。

你可以在MATLAB计算ROC曲线®使用perfcurve函数统计和机器学习的工具箱™。此外,分类学习者应用生成ROC曲线来帮助你评估模型的性能。应用程序允许您指定不同的类图,这样你可以查看ROC曲线的多类分类问题,有两个以上不同的输出类。

ROC曲线是如何工作的

大多数机器学习模型的二进制分类不输出1或0时做一个预测。相反,他们连续输出值在[0,1]范围。值达到或超过某一阈值(例如0.5)被列为1和值低于阈值被归类为0。ROC曲线上的点代表的玻璃钢和TPR不同的阈值。

选定的阈值可以在[0,1],以及由此产生的分类根据该阈值的值将会改变。例如,如果阈值设置为0,模型总是预测1(以上任何0分为1)导致的TPR 1和1的玻璃钢。ROC曲线的另一端,如果阈值设置为1时,该模型将永远预测0(任何低于1是归类为0)导致的TPR 0和玻璃钢0。

当评估分类模型的性能,你最感兴趣的这些极端情况之间发生了什么。一般来说,越是“向左”ROC曲线,分类器就越好。

通常使用ROC曲线交叉验证评估模型的性能验证或测试数据。

ROC曲线的计算perfcurve函数(从左到右)一个完美的分类器,一个典型的分类器,分类器没有比随机猜测。


例子和如何


软件参考

参见:交叉验证,机器学习