深度网络量化和部署使用深度学习工具箱模型量化库

了解如何在MATLAB中量化、校准和验证深度神经网络^®使用白盒方法在性能和精度之间进行权衡，然后将量化DNN部署到嵌入式GPU和FPGA硬件板上。

使用深度学习工具箱™模型量化库，您可以量化深度神经网络，如Squeezenet。在校准过程中，该工具收集权重、偏差和激活所需的范围，然后提供可视化，表示校准的动态范围的直方图分布(以两倍刻度为单位)。然后，您可以使用GPU Coder™将量化网络部署到NVIDIA^®杰森^®AGX Xavier实现了2倍的性能加速和4倍的内存使用减少，与单精度实现相比，只有约3%的top-1精度损失。

了解如何使用该工具将网络量化并部署到Xilinx^®ZCU102板连接高速摄像机。原始深度神经网络的吞吐量为45帧/秒。使用深度学习工具箱模型量化库，您可以将网络量化到INT8，将吞吐量提高到每秒139帧，同时保持正确的预测结果。

在这个演示中，我们将展示量化深度学习网络的工作流程，并将它们部署到MATLAB中的gpu和fpga中。

将深度学习网络部署到边缘设备是一个挑战，因为深度学习网络可能是相当计算密集型的。例如，像AlexNet这样的简单网络超过200 MB，而像vg -16这样的更大的网络超过500 MB。

量化有助于减少网络的规模，将网络中使用的浮点值转换为更小的位宽，同时保持精度损失最小。

从R2020a开始，我们发布了使用白盒、易于使用的迭代工作流量化深度学习算法的能力。这种方法可以帮助您在性能和准确性之间进行权衡。

为了了解这个工作流程的实际情况，让我们举一个检测在制造过程中可能发现的螺母和螺栓缺陷的例子。

假设这是检查生产线的一部分，所以我们需要使用高速摄像机以120帧/秒的速度处理。

系统工程的需求将涉及精度、网络延迟和总体硬件成本等指标。

在网络的设计和实现过程中，它们经常驱动选择的权衡。

这个应用程序包括……

1)调整大小和选择感兴趣区域的预处理逻辑，…

2)利用预先训练的网络来检测零件的缺陷或无缺陷，…

3)最后进行后期处理，在屏幕上标注结果。

让我们通过研究嵌入式gpu的部署来开始量化工作流。

量化并部署到运行在NVIDIA Jetson AGX Xavier上的gpu上，实现了2倍的性能速度和4倍的内存减少，与单精度实现相比，只有大约3%的top-1精度损失。

这个示例使用的是Squeezenet，它消耗了5 MB的磁盘内存。

首先，我们先从扩展管理器下载深度学习量化支持包，然后启动应用程序。金宝app

一旦我们加载网络来量化GPU目标，我们就可以使用已经设置好的数据存储进行校准。校准通过网络运行一组图像，以收集权重、偏差和激活所需的范围。

可视化表示的直方图分布的校准动态范围的幂二比例尺。直方图中的灰色部分表示量化类型不能表示的数据，而蓝色部分表示量化类型可以表示的数据。最后，颜色越深代表频率越高。

如果这是可以接受的，我们将网络量化并加载一个数据存储以验证量化网络的准确性。

这是结果。与原来的浮点网络相比，在桌面GPU上测量时，内存减少了74%，并且没有损失顶级精度。

一旦我们验证了结果并导出了dlquantizer工作流对象，我们就可以使用GPU编码器将量化网络部署到NVIDIA Jetson板上。

我们对defect .png进行推理，我们期望这个图像被归类为有缺陷的螺栓。

现在，让我们把注意力转向量化和将网络部署到Xilinx ZCU102板上。该网络使用34 MB内存用于可学习参数，运行时内存为200 MB。

通过这5行MATLAB代码，我们可以加载运行在ZCU102板上的单精度位流。我们看到它使用84 MB的内存，每秒45帧的吞吐量。这对我们的高速摄像机来说不够快。

让我们选择FPGA量化。

一旦量化工作流程完成，我们将把量化网络导出到MATLAB工作空间。

量化的网络需要运行在一个量化为INT8的处理器上，因此我们将使用下载的zcu102位流的INT8版本。

编译后，参数减少到68 MB，我们可以以每秒139帧的速度运行网络。我们也得到了正确的预测结果。

因此，正如你所看到的，深度学习量化应用程序可以帮助你减少gpu和fpga的深度学习网络的规模，同时最大限度地减少准确性的损失。如果您有兴趣了解更多，请查看R2020a或最新的R2020b中的深度学习工具箱模型量化库。

深度学习工具箱

下一个:

24:56

汽车产品开发的最优神经网络

深度网络量化和部署使用深度学习工具箱模型量化库

相关产品下载188bet金宝搏

深度学习工具箱

下一个:

相关视频: