MATLAB中的模型可解释性

爱马仕孙,MathWorks

可解释机器学习(或在深度学习中称为“可解释的人工智能”)提供了克服人工智能模型黑箱特性的技术和算法。通过揭示各种特征如何有助于(或不有助于)预测，您可以验证模型使用了正确的证据进行预测，并揭示在训练期间不明显的模型偏差。

获取模型可解释性及其所涉及的用例的概述。对于那些对采用机器学习感兴趣但厌倦了黑箱模型的工程师和科学家，我们将解释解释性如何满足法规要求，建立对机器学习的信任，并验证模型是否有效。这在金融和医疗器械等行业尤为重要，因为这些行业的监管规定了严格的指导方针。我们概述了机器学习的可解释性方法以及如何在MATLAB®中应用这些方法。我们在医学应用中展示了可解释性，根据ECG信号对心律失常进行分类。

近年来，我们看到人工智能和机器学习算法在许多智能任务上超过或超过了人类的表现，比如医学成像诊断和驾驶汽车。然而，这些成就的核心缺失的是对这些算法如何工作的直观理解。

这个视频解释了为什么可解释性很重要，有哪些方法可以解释，并演示了如何在Matlab中使用这些技术。具体来说，我们将研究LIME、部分相关图和排列预测器重要性算法。我们将在心电图分类的背景下检查可解释性。所描述的技术可以应用于任何模型。这段视频不需要医学背景。

为什么我们需要可解释性?首先，机器学习模型并不容易理解，更精确的模型通常难以解释。此外，在医疗、金融和安全行业，还需要解释方法来帮助克服监管障碍。

还需要可解释的模型来确保它们使用正确的证据并揭示训练数据中的偏差。最近AI的灾难性应用是在信用卡评分中，据报道，一种算法给男性的信用额度高于女性。这可能是由于训练数据中的偏差、实时数据中的偏差或其他原因解释性模型有助于我们预防这些问题。

在我们的示例中，您将对机器学习模型应用可解释性，该模型经过训练，可根据两个公开数据库中的ECG数据将心跳分类为异常或正常。ECG表示心脏对来自窦音的电刺激的响应，通常分解为QRS方式。我们将使用Matlab的小波Toolbox从原始信号数据中自动提取QRS波的位置，并从R峰中提取8个特征用于训练。

一旦我们有了特征，我们就可以使用分类学习器快速训练模型。在这里，我们训练了一个决策树作为一个固有可解释模型的例子，以及两个复杂的模型。如果精确度是最重要的，那么它只会选择性能最好的模型。然而，在一些情况下，如预测生命终点护理，可解释性是非常重要的。我们要确保模型使用正确的证据进行预测，也要了解模型可能出错的情况。

使用Matlab的置换预测函数，我们可以看到，对于我们表现最好的模型，随机森林，R波的振幅被作为重要的预测因子。然后，我们可以使用Matlab的部分依赖图来量化R波振幅对模型输出的影响。我们看到，当振幅接近0时，这有助于输出异常心跳分类的概率变化5%。

然而，这与我们的领域知识相矛盾。专家说，r振幅水平对心跳的分类应该没有什么影响。我们希望确保数据中的这些偏差不包括在我们的模型中。接下来，我们重新训练我们的模型，不把振幅作为预测因素。一旦我们消除了偏差，我们就可以看到我们的新决策树在全球层面上是如何工作的。树并不关注r振幅，而是认为RR0和RR2区间是最重要的预测因子。

对于更复杂的模型，比如随机森林，我们再次利用部分依赖图来看看最重要的预测因子是如何影响模型的。我们发现极短的RR1间隔通常导致异常心跳分类的概率较高。直觉上，这是有道理的。

我们还可以使用部分依赖图来比较不同的模型。查看支持向量机的相同特征表明，它与我们的随机森林具有相似的趋势。但是，图要平滑得多，这表明支持向量机对方差和输入数据不太敏感，使其成为一个更易于解释的模型。

除了了解这些模型如何在全球范围内工作之外，其他情况可能还需要我们了解它们如何在单个预测中工作。LIME是一种围绕感兴趣的点观察数据点和模型预测的技术。从那里，它建立了一个简单的线性模型，作为我们的复杂模型的一个近似。近似线性模型的系数被用作代理，以确定每个特征对我们感兴趣点周围的预测有多大的贡献。

让我们看看一个被SVM误分类为正常的观察结果。我们可以看到，在这个观察中RR0的值是0.0528。从我们之前的部分依赖图中，我们注意到在0.05左右的值，预测异常心跳的概率会下降。我们还可以看到LIME对RR0施加了很高的负权重。RR0的高值和负加权降低了预测异常心跳的概率，解释了我们的错误分类。

然而，也有一些限制。LIME作为我们模型的一个近似，并不是我们模型如何工作的一个精确表示。为了说明这一点，我们可以看到，在一些情况下，我们的复杂模型的预测与近似不匹配。为了避免这种情况，尝试使用不同的参数再次运行LIME算法，直到预测一致，例如增加要绘制的重要预测器的数量。

我们已经演示了如何在Matlab中使用可解释性技术，现在可以使用可解释性来比较不同的模型，揭示数据偏差，并理解预测出错的原因。即使没有数据科学背景，我们也可以成为这一运动的一部分，使机器学习变得可解释。有关更多信息，请参阅下面的链接关于视频中介绍的任何技术，我都很感兴趣。神经网络也有类似的可解释性技术，所以请务必查看这些资源。