什么是int8量化？为什么它在深度神经网络中流行？

作者：Ram Cherukuri，MathWorks

在边缘部署实时推理的深度学习是许多应用领域的关键。它显著降低了与云通信的网络带宽、网络延迟和功耗成本。

然而，边缘设备的内存、计算资源和能力有限，这意味着深度学习网络必须针对嵌入式部署进行优化。

int8量化已成为此类优化的流行方法，不仅适用于TensorFlow和PyTorch等机器学习框架，也适用于NVIDIA等硬件工具链^®TensorRT和Xilinx^®DNNDK主要是因为int8使用8位整数代替浮点数，使用整数数学代替浮点数数学，从而减少了内存和计算需求。

这些要求可能相当大。例如，像AlexNet这样相对简单的网络超过200 MB，而像VGG-16这样的大型网络超过500 MB[1]。这种规模的网络无法安装在低功耗微控制器和更小的FPGA上。

在本文中，我们将仔细研究使用8位表示数字意味着什么，并了解整数表示数字的int8量化如何将内存和带宽使用减少75%。

int8表示法

我们从一个简单的例子开始，使用VGG16网络，由几个卷积和ReLU层和几个完全连接和最大池层组成。首先，让我们看看现实世界中的数字(在本例中是一个卷积层中的权重)如何用整数表示。这个函数fi在MATLAB中^®使用8位字长为权重提供最佳精度缩放。这意味着我们将以2^-12的比例因子获得最佳精度，并将其存储为位模式0110110，它表示整数110。

\[实\\u数=存储\\u整数*缩放\\u因子\]

\[0.0269=110*2^{-12}\]

脚本如下：

现在让我们考虑层的所有权重。使用fi同样，我们发现，对于卷积层中的所有权重，能够提供最佳精度的比例因子是2^-8。我们将权重的动态范围分布可视化为直方图。直方图显示大多数权重分布在2^-3和2^-9的范围内（图1）。它还表明了重量分布的对称性。

图1所示。VGG16中卷积层权值的分布。

这个例子展示了一种量化和用8位整数表示的方法。还有两种其他选择：

通过考虑精度权衡选择不同的比例因子. 因为我们选择了2^-8的比例因子，几乎22%的权重低于精度。如果我们选择2^-10的比例因子，只有6%的权重低于精度，但0.1%的权重超出范围。误差分布和最大绝对误差也说明了这种折衷（图2）。我们可以选择16位整数，但我们将使用两倍的位。另一方面，使用4位将导致严重的精度损失或溢出。

图2。比例因子为2^-8(左)和2^-10(右)的误差的直方图分布及其对应的最大绝对误差。

在调用时指定偏差fi，基于权重的分配。

\[实\\u数=存储\\u整数*缩放\\u因子+偏差\]

您可以对任何网络（如ResNet50或Yolo）进行类似的分析，并确定一个整数数据类型或比例因子，该数据类型或比例因子可以表示特定公差范围内的权重和偏差。

使用int8以整数表示数据有两个关键好处：

您可以将数据存储需求减少4倍，因为单精度浮点需要32位来表示数字。结果是用于存储所有权重和偏差的内存减少，传输所有数据时消耗的功率也减少，因为能量消耗主要由内存访问控制。
根据目标硬件的不同，您可以通过使用整数计算而不是浮点数学来进一步提高速度。例如，您可以在NVIDIA GPU上使用半精度浮点。大多数CPU不支持本机半计算。但是，所有目标都支持整数数学，有些目标还提供特定于目标的内部函数，如SIMD支持，当使用整数进行底层计算时，这些函数可以显著提高速度。金宝app

将网络量化为int8

量化背后的核心思想是神经网络对噪声的弹性;特别是深度神经网络，它被训练得能够识别关键模式并忽略噪声。这意味着网络可以应对量化误差导致的网络权重和偏差的微小变化，而且越来越多的工作表明量化对整个网络的准确性影响最小。这使得量化成为将神经网络部署到嵌入式硬件的一种有效方法，再加上显著减少内存占用、功耗和提高计算速度[1,2]。

我们将把上面讨论的想法应用到网络中。为了简单起见，我们将使用一个简单的网络来进行MNIST数字分类，它由两层组成。用于图像分类和目标检测的深度网络，如VGG16或ResNet，包括多种层次。卷积层和全连接层是内存和计算最密集的层。

我们的网络模拟了这两层的特性。我们在Simulink中对这个网络建模金宝app^®因此，我们可以观察信号流，并仔细查看计算的细节（图3）。

图3。MNIST网络。

在每一层中，我们将用缩放的int8整数替换权重和偏差，然后将矩阵乘法的输出与固定指数相乘以重新缩放。当我们在验证数据集上验证修改后网络的预测时，混淆矩阵显示int8表示仍然保持95.9%的准确性（图4）。

图4。缩放MNIST的混淆矩阵．

为了理解将权值和偏差量化到int8的效率收益，让我们将这个网络部署到一个嵌入式硬件目标—在本例中，一个ST发现板(STM32F746G).我们将分析两个关键指标：

内存使用情况
运行时执行性能

当我们尝试部署原始模型（双精度浮点）时，它甚至不适合板上，RAM溢出。最简单的修复方法是将权重和偏差转换为单个数据类型。该模型现在适合目标硬件，但仍有改进的余地。

我们使用使用int8的权重和偏差矩阵的比例模型，但计算仍然是单一精度(图5)。

图5。第1层的矩阵乘法。权值是int8，但是输入数据是单精度的，底层计算也是单精度的。

如预期的那样，生成的代码消耗的内存少了4x(图6)。

图6。左：单精度代码。右：int8代码。

然而，在发现板上的执行时间显示，单精度版本平均运行14.5毫秒(大约69帧每秒)，而缩放版本稍微慢一点，平均运行19.8毫秒(大约50帧每秒)。这可能是因为对单一精度的强制转换的开销，因为我们仍然在单一精度中进行计算(图7)。

图7。顶部：为单精度生成的代码。底部：缩放版本。

该示例仅涵盖在int8中存储权重和偏差的量化的一个方面。通过对AlexNet和VGG等标准现成网络应用相同的原理，可以将它们的内存占用减少3倍[1]。

例如，TensorFlow以两种形式将训练后量化为8位，即带浮点核的权重和权重和激活的全整数量化[3]。而TensorFlow使用带偏差的比例因子映射到int8范围[-128，127]，NVIDIA TensorRT通过确定最小化信息丢失的阈值并使阈值范围之外的值饱和，将权重编码到[-128，127]范围，从而避免了偏差的需要[4]。

为了充分利用全整数量化的优点，我们还需要将每个层的输入缩放或转换为整数类型。这要求我们确定层输入的正确缩放比例，然后在整数乘法后重新缩放。但是int8是正确的数据类型吗？是否会有溢出，精度是否会提高网络的性能是否可以接受？

这些问题是定点分析的本质，事实上，数字识别文档示例说明了如何使用定点数据类型转换MNIST网络[5]。按照该示例中所示的步骤，我们为权重提供了一个8位表示，其精度下降到1%以下（图8）。

图8。模型转换为使用16位字长。

生成的代码不仅只有原来的四分之一大小;它也更快，11毫秒~ 90帧每秒(图9)。

图9。左:从定点模型生成的代码。右:从MNIST网络的第一层缩放权重。

其他量化技术

为了优化嵌入式部署的深层神经网络，我们只研究了许多正在研究和探索的策略中的一小部分。例如，第一层中的权重（大小为100x702）仅包含192个唯一值。可应用的其他量化技术包括：

通过聚类权值进行权值共享，并使用Huffman编码减少权值[1]。
将权重量化为最接近的二次幂。这大大加快了计算速度，因为它用更快的算术移位运算取代了乘法运算。
将激活函数替换为查找表以加快激活函数的计算，例如谭和经验值。例如，在图9所示的生成代码中，我们可以通过替换谭具有查找表的函数。

深度学习应用程序不仅仅是网络。您还需要考虑应用程序的前后处理逻辑。我们讨论的一些工具和技术已经用于量化此类算法几十年了。它们不仅可以用于量化网络，还可以用于量化整个应用程序在…上

你可以在MATLAB中探索所有这些优化思想。您可以探索量化以进一步限制精度整数数据类型(如int4)的可行性和影响，或者探索浮点数据类型(如半精度)。结果可能是令人印象深刻的:Song、Huizi和william[1]使用了这些技术的组合，分别将AlexNet和VGG等网络的大小减少了35倍和49倍。

2019年出版的

工具书类

深度压缩：使用剪枝、训练量化和哈夫曼编码对深度神经网络进行压缩——宋汉，毛惠子，Willian J Dally，ICLR 2016。
V.Vanhoucke，A.Senior和M.Z.Mao，“提高CPU上神经网络的速度”，深入学习和无监督特征学习研讨会，NIPS 2011年，2011年。
训练后的int8 TensorFlow量化
int8使用NVIDIA TensorRT进行推理
MNIST数字识别示例

什么是int8量化？为什么它在深度神经网络中流行？

int8表示法

将网络量化为int8

其他量化技术

工具书类

下载188bet金宝搏使用的产品

了解更多

查看相关功能的文章