GPU编码器

为NVIDIA图形处理器生成CUDA代码

请求免费试用

GPU Coder™生成优化的CUDA^®从MATLAB代码^®代码和仿真软件金宝app^®模型。生成的代码包括CUDA内核，用于深度学习、嵌入式视觉和信号处理算法的可并行部分。为了获得高性能，生成的代码调用优化的NVIDIA^®CUDA库，包括TensorRT™，cuDNN, cuFFT, cuSolver和cuBLAS。这些代码可以作为源代码、静态库或动态库集成到项目中，并且可以为NVIDIA Jetson™、NVIDIA DRIVE™和其他平台上的台式机、服务器和gpu编译。您可以使用MATLAB中生成的CUDA来加速深度学习网络和算法的其他计算密集型部分。GPU编码器允许您将手写CUDA代码合并到您的算法和生成的代码。

当与嵌入式编码器使用^®， GPU编码器让您验证的数字行为生成的代码通过软件在环(SIL)和处理器在环(PIL)测试。

开始：

什么是GPU编码器？

免费白皮书

用MATLAB生成CUDA代码

立即下载

生成快速，灵活的CUDA代码

生成优化的CUDA代码。部署代码免版税。

部署算法免版税

在流行的NVIDIA GPU上编译并运行生成的代码，从桌面系统到数据中心到嵌入式硬件。生成的代码无需在商业应用程序中为您的客户提供免版税部署。

为雾化整流算法生成CUDA代码(22)

GPU代码生成:Mandelbrot集合

探索画廊（2张图片）

GPU编码器的成功故事

了解各种行业的工程师和科学家如何使用GPU编码器为他们的应用程序生成CUDA代码。

在NVIDIA Jetson TX2上运行的空中客车原型机检测演示，实现缺陷自动检测

空客原型机在NVIDIA Jetson TX2上自动检测缺陷。

从支持的工具箱和函数生成代码金宝app

GPU编码器从广泛的MATLAB语言功能生成代码，该功能设计设计工程师用于开发算法作为较大系统的组件。这包括来自Matlab和Companion工具箱的数百个运营商和函数。

金宝app支持的工具箱和功能

MATLAB语言特性支持金宝app

MATLAB语言和工具箱支持代码生成。金宝app

将遗留代码

使用遗留代码集成功能，将可信或高度优化的CUDA代码合并到MATLAB算法中，以便在MATLAB中进行测试。然后从生成的代码中调用相同的CUDA代码。

遗留代码集成

将现有的CUDA代码合并到生成的代码中。

从Simulink模型生成CUDA代码金宝app

在Simulink中创建模型并生成金宝app优化的CUDA代码。

运行模拟和生成优化的NVIDIA图形处理器代码

与Simulink Coder金宝app™一起使用时，GPU编码器在NVIDIA GPU上的Simulink模型中加速了MATLAB功能块的计算密集部分。然后，您可以从Simulink模型生成优化的CUDA代码，并将其部署到您的NVIDIA GPU目标。金宝app

使用GPU编码器仿真加速度

利用GPU编码器从Simulink模型中生金宝app成代码

瞄准NVIDIA嵌入式板

金宝app在GPU上运行的Sobel边缘检测器的Simulink模型。

部署端到端深度学习算法

在Simulink模型中使用深度学习工具箱™中的各种经过训练的深度学习网络(包括ResNet-50、SegNet和LSTM)，并将其部署到NVIDIA gpu上。金宝app生成用于预处理和后处理的代码，以及经过训练的深度学习网络，以部署完整的算法。

金宝app支持的网络和层

利用MATLAB函数块在Simul金宝appink中进行深度学习

Deep Learning in 金宝appSimulink for NVIDIA GPU:使用GPU编码器生成CUDA代码

日志信号，调谐参数和数字验证代码行为

当与Simulink Code金宝appr一起使用时，GPU Coder使您能够使用外部模式模拟实时记录信号和调整参数。使用嵌入式编码器与GPU编码器运行软件在环和处理器在环测试，以数字验证生成的代码符合模拟的行为。

使用外部模式进行参数调整和信号监控

数值等价测试

使用外部模式在Simulink中记录信号和调谐参数。金宝app

从深度学习网络生成CUDA代码

部署具有深度学习工具箱的培训的深度学习网络。

部署端到端深度学习算法

将各种培训的深度学习网络（包括Reset-50，SEGNET和LSTM）从深度学习工具箱到NVIDIA GPU。使用预定义的深度学习层或定义特定应用程序的自定义图层。生成用于预处理和后处理的代码，以及经过训练的深度学习网络，以部署完整的算法。

金宝app支持的网络和层

实时目标检测与YOLO v2使用GPU编码器（4:24）

基于YOLO v3深度学习的目标检测代码生成

基于U-net的语义切分网络生成

如何生成一个Keras-TensorFlow模型的CUDA代码

为推理生成优化代码

GPU编码器与其他深度学习解决方案相比，GPU编码器产生具有较小占用的代码，因为它只生成使用特定算法运行推断所需的代码。金宝搏官方网站生成的代码调用优化的库，包括TensorRT和CUDNN。

Lane检测用GPU编码器进行了优化

在Titan V GPU上使用cuDNN的VGG-16单图像推理。

使用张力进一步优化

生成与NVIDIA TensorRT(高性能深度学习推理优化器和运行时)集成的代码。使用INT8或FP16数据类型可以在标准FP32数据类型之上获得额外的性能提升。

基于TensorRT的NVIDIA图形处理器行人检测（1:34）

利用NVIDIA TensorRT进行深度学习预测

使用MATLAB，GPU编码器和张力的Jetson Agx Xavier深入学习(24:40)

在NVIDIA图形处理器上使用MATLAB和TensorRT

使用TensorRT和INT8数据类型提高执行速度。

深度学习量化

量化您的深度学习网络以降低内存使用率并提高推理性能。使用Deep Network Standizer应用程序分析和可视化性能和推理准确性之间的折衷。

用深网络量化器的INT8量化

深神经网络的量化

什么是int8量化，为什么它在深度神经网络中流行?

使用深度学习工具箱模型量化库的深度网络量化和部署

优化生成的代码

GPU编码器自动优化生成的代码。使用设计模式进一步提高性能。

最小化CPU-GPU存储器传输并优化内存使用情况

GPU编码器自动分析，识别和划分MATLAB代码段运行在CPU或GPU上。它还最小化了CPU和GPU之间的数据副本数量。使用分析工具来识别其他潜在的瓶颈。

GPU编程范式

内核创建

GPU内存分配和最小化

GPU执行生成的代码的分析

概要报告识别潜在的瓶颈。

调用优化的库

使用GPU Coder生成的代码调用优化的NVIDIA CUDA库，包括TensorRT, cuDNN, cuSolver, cuFFT, cuBLAS和Thrust。从MATLAB工具箱函数生成的代码尽可能地映射到优化的库。

来自库调用的内核

英伟达TensorRT

英伟达cuDNN

英伟达cuFFT

在优化cuFFT CUDA库中生成代码调用函数。

使用设计模式进一步加速

像模板处理这样的设计模式使用共享内存来提高内存带宽。当使用某些函数(如卷积)时，它们会自动应用。您还可以使用特定的pragmas手动调用它们。

设计模式

GPU上的模板处理

模具加工设计图案。

硬件原型

快速达到硬件，通过将算法的自动转换为CUDA代码。

原型在NVIDIA Jetson和DRIVE平台上

使用NVIDIA GPU的GPU编码器支持包，自动交叉编译和部署生成的代码到NVIDIA Jetson和DRIVE平台上。金宝app

来自GPU编码器的NVID金宝appIA Tegra支持

NVIDIA驱动GPU编码金宝app器的支持

使用GPU编码器在NVIDIA Drive上的原型和部署Jetson(2:54)

在NVIDIA驱动器上的语义分割

在NVIDIA Jetson平台上进行原型设计。

访问外设和传感器从MATLAB和生成的代码

远程与Matlab的NVIDIA目标通信，从网络摄像头和其他支持的外围设备获取早期原型的数据。金宝app将算法与外设接口代码一起部署到主板以进行独立执行。

NVIDIA Jetson的Sobel边缘检测

NVIDIA Jetson TX2平台上的摄像头图像部署和分类

从MATLAB和生成的代码访问外设和传感器。

从原型化到生产

使用GPU编码器与嵌入式编码器交互跟踪您的MATLAB代码与生成的CUDA代码并排。使用软件在环(SIL)和处理器在环(PIL)测试，验证所生成代码在硬件上运行的数值行为。

Matlab代码和生成的CUDA代码之间的跟踪

验证生成的代码的正确性

使用GPU编码器应用程序的处理器内执行

太平船务执行时间分析

使用GPU编码器具有嵌入式编码器的交互式可追溯性报告。

加速算法

生成CUDA代码并编译它在MATLAB和Simulink中使用。金宝app

在MATLAB中使用gpu加速算法

从您的MATLAB代码中调用生成的CUDA代码作为一个MEX函数来加速执行，尽管性能将根据您的MATLAB代码的性质而有所不同。概要文件生成的MEX函数来识别瓶颈并集中您的优化工作。

GPU代码生成:Mandelbrot集合

GPU执行生成的代码的分析

使用GPU编码器在NVIDIA GPU上加速雷达仿真(3)

为雾化整流算法生成CUDA代码

使用NVIDIA GP金宝appU加速Simulink模拟

与Simulink编码器一起使金宝app用时，GPU编码器在NVIDIA GPU上的Simulink模型中加速了MATLAB功能块的计算密集部分。

使用GPU编码器模拟加速

GPU编码器

GPU编码器

为NVIDIA图形处理器生成CUDA代码

开始：

用MATLAB生成CUDA代码

生成快速，灵活的CUDA代码

部署算法免版税

GPU编码器的成功故事

从支持的工具箱和函数生成代码金宝app

将遗留代码

从Simulink模型生成CUDA代码金宝app

运行模拟和生成优化的NVIDIA图形处理器代码

部署端到端深度学习算法

日志信号，调谐参数和数字验证代码行为

从深度学习网络生成CUDA代码

部署端到端深度学习算法

为推理生成优化代码

使用张力进一步优化

深度学习量化

优化生成的代码

最小化CPU-GPU存储器传输并优化内存使用情况

调用优化的库

使用设计模式进一步加速

硬件原型

原型在NVIDIA Jetson和DRIVE平台上

访问外设和传感器从MATLAB和生成的代码

从原型化到生产

加速算法

在MATLAB中使用gpu加速算法

使用NVIDIA GP金宝appU加速Simulink模拟

额外的GPU编码器资源

对GPU编码器感兴趣？