性能
排除代码生成问题,改进代码执行时间,并减少生成代码的内存使用
GPU Coder™生成的代码不能按预期执行的一些最常见的原因是:
CUDA®内核没有被创建。
主机到设备和设备到主机的内存传输(
cudaMemcpy
)为节流性能。没有足够的并行性或设备问题。
这些主题详细说明导致这些症状的常见原因,并描述如何利用内置筛选器检测这些问题。您可以找到有关如何解决这些问题并生成更有效的CUDA代码的信息。
应用程序
功能
对象
主题
GPU编码器故障排除工作流程。
创建并查看代码生成过程中生成的报告。
突出显示在GPU上运行的MATLAB代码部分。
创建和探索GPU静态代码度量报告。
生成高效CUDA内核的建议。
使用GPU编码器时减少内存瓶颈问题。
细粒度剖析的MATLAB算法及其通过SIL生成的CUDA代码。
通过使用从NVIDIA分析器(nvvp)获得的信息来提高性能。
查看GPU编码器的当前限制。