主要内容

NVIDIA PROFILERによる解析

不十分な并列化

条件

カーネルで处理がれない场合,memcpyカーネル起动ヘッドによりパフォーマンスの向上がさされる可能がありありあります。。よりよりより大きな大きなサンプルサンプルサンプルセットセットででで作业作业作业するするするすることを(,NVVPReportを确认し。

操作

ループ内处理をか,サンプルのをを増やします。

スレッドあたりレジスタの过剰ローカルローカル

条件

ループ本さているローカル変数一时変数ががと,,スレッドスレッドあたりあたりあたりののレジスタレジスタレジスタファイルファイル内におけるにおけるにおけるレジスタレジスタレジスタののの圧力圧力がが高く高く高くなりなりますまたは,NVVPによってこのが报告さ。。

操作

coder.gpu.kernelプラグマでなサイズ使用すること検讨します。

关连するトピック