机器学习模型通常被称为“黑盒子”,因为它们对知识的表示不是直观的,因此很难理解它们是如何工作的。可解释机器学习是指克服大多数机器学习算法的黑箱特性的技术。通过揭示不同的特征如何有助于(或不有助于)预测,您可以验证模型为其预测使用了正确的证据,并发现在训练期间不明显的模型偏差。
实践者寻求模型可解释性主要有三个原因:
- 指导方针:“黑盒”模型违背了许多公司技术最佳实践和个人偏好。
- 验证:了解预测在哪里或为什么会出错,并运行“假设”场景来改善模型的稳健性和消除偏差是很有价值的。
- 规章:为符合政府对敏感应用(如金融、公共卫生和交通)的规章,需要对模型进行解释。
可解释机器学习解决了这些问题,并在预测解释很重要或法规要求的情况下增加了对模型的信任。
可解释机器学习工作在三个层面:
当地:解释个人预测背后的因素,比如贷款申请被拒绝的原因
队列:展示模型如何在培训或测试数据集中对特定人口或组进行预测,例如将一组制成的产品被归类为缺陷的原因下载188bet金宝搏
全球:了解机器学习模型如何在整个训练或测试数据集上工作,比如对放射图像进行分类的模型会考虑哪些因素
一些机器学习模型,如线性回归和决策树,本质上是可解释的。然而,可解释性往往是以牺牲力量和准确性为代价的。
使用MATLAB®对机器学习,您可以应用技术来解释和解释最受欢迎和高度准确的机器学习模型,该模型并不固有地解释。
本地可解释模型 - 不可知的解释(石灰):用简单的可解释模型(例如线性模型或决策树)近似于对兴趣预测的邻域的复杂模型,并将其作为代理以解释原始(复杂)模型的工作原理。下面的图2说明了涂抹石灰的三个主要步骤。
部分依赖和个人有条件期望地块:通过在所有可能的特征值上平均模型的输出,检验一个或两个预测器对整体预测的影响
你可以使用MATLAB来实现其他流行的可解释性方法,包括:
- 交换预测的重要性:查看测试或培训数据集的模型预测错误并将预测器的值进行洗牌。误差变化的大小从破坏预测器的值对应于预测器的重要性。
- 沙普利值:Shapley值源于合作博弈理论,是特定特征对所有可能“联盟”(即特征组合)的平均边际贡献。评估所有特征组合通常需要很长时间,因此在实践中Shapley值是通过蒙特卡洛模拟来逼近的。
当地的 | 队列 | 全球 | |
解释: | 个人预测 | 种群子集上的模型行为 | 模型的行为“任何地方” |
用例 | 当个人预测出错时 预测似乎是反直觉的 什么 - 如果分析 |
防止偏见 验证特定组的结果 |
演示模型如何工作 比较不同的部署模型 |
适用的可解释性的方法 | 石灰 局部决策树 有条理的价值 |
数据子集的全局方法 | PDP /冰 全球决策树 功能的重要性 |
解释性方法有自己的限制。最佳实践是要知道将这些算法适合各种用例的限制。可解释性工具可帮助您理解为什么机器学习模型使其成为预测,这是验证和验证AI应用的关键部分。认证机构目前正在开展认证AI的框架,用于敏感应用,如自主运输和医学。