GPU编码器

为NVIDIA gpu生成CUDA代码

申请免费试用

GPU编码器™生成优化的CUDA^®从MATLAB代码^®代码和仿真软件金宝app^®模型。生成的代码包括用于深度学习、嵌入式视觉和信号处理算法的可并行化部分的CUDA内核。为了高性能，生成的代码调用优化的NVIDIA^®CUDA库，包括TensorRT™、cuDNN、cuFFT、cuSolver和cuBLAS。这些代码可以作为源代码、静态库或动态库集成到您的项目中，并且可以针对桌面、服务器和嵌入在NVIDIA Jetson™、NVIDIA DRIVE™和其他平台上的gpu进行编译。您可以使用MATLAB中生成的CUDA来加速深度学习网络和其他计算密集型部分的算法。GPU编码器让你把手写CUDA代码纳入你的算法和生成的代码。

当与嵌入式编码器一起使用时^®， GPU编码器允许您通过在环软件(SIL)和在环处理器(PIL)测试验证生成代码的数值行为。

文档和资源
尝试或购买

什么是GPU编码器？

免费白皮书

用MATLAB生成CUDA代码

立即下载

生成快速、灵活的CUDA代码

生成优化的CUDA代码。免费部署代码。

部署算法免版税

在流行的NVIDIA GPU上编译并运行生成的代码，从桌面系统到数据中心再到嵌入式硬件。生成的代码是免版税的，可以将其免费部署到商业应用程序中。

为雾校正算法生成CUDA代码(22)

图形处理器代码生成:Mandelbrot集

探索图库（2张图片）

GPU编码器的成功故事

了解在各种行业的工程师和科学家如何使用GPU编码器为他们的应用程序生成CUDA代码。

在NVIDIA Jetson TX2上运行的空客原型机检查演示机，可自动检测缺陷

空客原型机自动检测NVIDIA Jetson TX2的缺陷。

从支持的工具箱和函数中生成代码金宝app

GPU编码器从广泛的MATLAB语言功能生成代码，设计工程师使用这些功能开发算法，作为更大系统的组件。这包括来自MATLAB和配套工具箱的数百个运算符和函数。

金宝app支持的工具箱和功能

MATLAB语言特性支持金宝app

支持MATLAB语言和工具箱的代码生成。金宝app

将遗留代码

使用遗留代码集成功能，将可信或高度优化的CUDA代码合并到MATLAB算法中进行MATLAB测试。然后从生成的代码中调用相同的CUDA代码。

遗留代码集成

将现有CUDA代码合并到生成的代码中。

从Simulink模型生成CUDA代码金宝app

在Simulink中创建模型并生成金宝app优化的CUDA代码。

运行模拟和生成优化代码的NVIDIA gpu

与Simulink编码器一起使金宝app用时™, GPU编码器在NVIDIA GPU上加速Simulink模型中MATLAB功能块的计算密集部分。然后，您可以从Simulink模型生成优化的CUDA代码，并将其部署到NVIDIA GPU目标。

基于GPU编码器的仿真加速

利用GPU编码器从Simulink模型生成金宝app代码

针对NVIDIA嵌入式板

金宝app在GPU上运行的Sobel边缘检测器的Simulink模型。

部署端到端深度学习算法

在Simulink模型中使用深度学习工具箱™中的各种训练有素的深度学习网络(包括ResNet-50、SegNet和LSTM)，并部署到NVIDIA gpu。金宝app生成预处理和后处理代码与您训练的深度学习网络一起部署完整的算法。

金宝app支持的网络和层

在Simulink中使用MATLA金宝appB函数块进行深度学习

Simulink for NVID金宝appIA GPU的深度学习:使用GPU编码器生成CUDA代码

记录信号、调整参数并以数字方式验证代码行为

当与Simulink Code金宝appr一起使用时，GPU Coder使您能够使用外部模式模拟实时记录信号和调整参数。使用嵌入式编码器与GPU编码器一起运行软件在循环和处理器在循环测试，从数值上验证生成的代码与模拟行为的匹配。

外部模式的参数调整和信号监控

数值等价测试

使用外部模式在Simulink中记录信号并调整参数。金宝app

从深度学习网络生成CUDA代码

使用深度学习工具箱部署经过培训的深度学习网络。

部署端到端深度学习算法

部署各种经过培训的深度学习网络（包括ResNet-50、SegNet和LSTM）从深度学习工具箱到NVIDIA GPU。使用预定义的深度学习层或为特定应用程序定义自定义层。生成预处理和后处理代码以及经过培训的深度学习网络，以部署完整的算法。

金宝app支持的网络和层

使用GPU编码器的YOLO v2实时对象检测(4:24)

使用YOLO v3深度学习的目标检测代码生成

基于U-net的语义分割网络的生成

如何为Keras-TensorFlow模型生成CUDA代码

为推理生成优化的代码

与其他深度学习解决方案相比，GPU编码器生成的代码占用空间更小，因为它只生成使用特定算法运行推理所需的代码。生成的代码调用优化的库，包括TensorRT和cuDNN。金宝搏官方网站

用GPU编码器优化车道检测

在Titan V GPU上使用cuDNN的VGG-16单图像推理。

使用TensorRT进一步优化

生成与NVIDIA TensorRT集成的代码，TensorRT是一个高性能的深度学习推理优化器和运行时。使用INT8或FP16数据类型可以提高标准FP32数据类型的性能。

基于TensorRT的NVIDIA图形处理器行人检测(1:34)

使用NVIDIA TensorRT进行深度学习预测

使用MATLAB、GPU编码器和TensorRT深入学习Jetson AGX Xavier(24:40)

在NVIDIA gpu上使用MATLAB和TensorRT

使用TensorRT和INT8数据类型提高执行速度。

深度学习量化

量化您的深度学习网络，以减少内存使用并提高推理性能。使用Deep Network Quantizer应用程序分析并可视化提高性能和推理准确性之间的权衡。

带深度网络量化器的INT8量化

深层神经网络的量化

什么是int8量化，为什么它在深度神经网络中流行?

深度网络量化和部署使用深度学习工具箱模型量化库

优化生成的代码

GPU编码器自动优化生成的代码。使用设计模式进一步提高性能。

最小化CPU-GPU内存传输并优化内存使用

GPU编码器自动分析、识别和划分MATLAB代码段，以便在CPU或GPU上运行。它还将CPU和GPU之间的数据拷贝数量降到最低。使用分析工具来识别其他潜在的瓶颈。

GPU编程范式

内核创建

GPU内存分配和最小化

生成代码的GPU执行评测

识别潜在瓶颈的概要报告。

调用优化的库

使用GPU编码器生成的代码调用优化的NVIDIA CUDA库，包括TensorRT, cuDNN, cuSolver, cuFFT, cuBLAS和Thrust。从MATLAB工具箱函数生成的代码将尽可能映射到优化的库中。

库调用中的内核

英伟达TensorRT

英伟达cuDNN

英伟达cuFFT

在优化的cuFFT CUDA库中生成调用函数的代码。

使用设计模式进一步加速

模板处理等设计模式使用共享内存来提高内存带宽。当使用某些函数(如卷积)时，它们会自动应用。您还可以使用特定的实用程序手动调用它们。

设计模式

基于GPU的模板处理

模具加工设计图案。

硬件上的原型

通过自动将算法转换为CUDA代码，快速进入硬件。

原型在NVIDIA Jetson和驱动平台上

使用NVIDIA GPU的GPU编码器支持包，在NVIDIA Jetson和DRIVE平台上自动交叉编译和部署生成的代码。金宝app

NVIDIA Tegra支金宝app持GPU编码器

来自GPU编码器的NVID金宝appIA驱动器支持

使用GPU编码器在NVIDIA Drive上进行原型设计和部署，Jetson(2:54)

NVIDIA DRIVE上的语义分割

在NVIDIA Jetson平台上进行原型设计。

访问外设和传感器从MATLAB和生成的代码

远程通信与英伟达目标从MATLAB获取数据从网络摄像头和其他支持的外围设备，用于早期原型。将您的算法与外围接口代码一起部署到板上，以便独立执行。金宝app

基于NVIDIA Jetson网络摄像头的Sobel边缘检测

NVIDIA Jetson TX2平台上摄像头图像的部署与分类

从MATLAB访问外设和传感器并生成代码。

从原型到生产

使用GPU编码器与嵌入式编码器交互式跟踪您的MATLAB代码并排与生成的CUDA代码。使用软件在环(SIL)和处理器在环(PIL)测试验证在硬件上运行的生成代码的数值行为。

MATLAB代码与生成的CUDA代码之间的跟踪

验证生成代码的正确性

使用GPU编码器应用程序在循环中执行处理器

公益诉讼执行时间分析

使用GPU编码器和嵌入式编码器的交互式跟踪报告。

加速算法

生成CUDA代码并编译，以便在MATLAB和Simulink中使用。金宝app

在MATLAB中使用gpu加速算法

从MATLAB代码中调用生成的CUDA代码作为MEX函数，以加快执行速度，尽管性能将根据MATLAB代码的性质而变化。分析生成的MEX函数，以识别瓶颈并集中您的优化工作。

图形处理器代码生成:Mandelbrot集

生成代码的GPU执行评测

在NVIDIA GPU上使用GPU编码器加速雷达模拟(3)

为雾校正算法生成CUDA代码

使用NVIDIA GP金宝appU加速Simulink模拟

当与Simulink编码器一起金宝app使用时，GPU编码器可加速NVIDIA GPU上Simulink模型中MATLAB功能块的计算密集型部分。

使用GPU编码器的模拟加速

GPU编码器

GPU编码器

为NVIDIA gpu生成CUDA代码

开始：

用MATLAB生成CUDA代码

生成快速、灵活的CUDA代码

部署算法免版税

GPU编码器的成功故事

从支持的工具箱和函数中生成代码金宝app

将遗留代码

从Simulink模型生成CUDA代码金宝app

运行模拟和生成优化代码的NVIDIA gpu

部署端到端深度学习算法

记录信号、调整参数并以数字方式验证代码行为

从深度学习网络生成CUDA代码

部署端到端深度学习算法

为推理生成优化的代码

使用TensorRT进一步优化

深度学习量化

优化生成的代码

最小化CPU-GPU内存传输并优化内存使用

调用优化的库

使用设计模式进一步加速

硬件上的原型

原型在NVIDIA Jetson和驱动平台上

访问外设和传感器从MATLAB和生成的代码

从原型到生产

加速算法

在MATLAB中使用gpu加速算法

使用NVIDIA GP金宝appU加速Simulink模拟

额外的GPU编码器资源

对GPU编码器感兴趣？