你好,
很可能在每一个步伐,程序是导致cudaMemcpy复制内存GPU和CPU的每一个步伐,然后将结果写入一个文件。cudaMemcpy要求GPU同步所有线程,因此是一个很昂贵的操作。
如果可能的话,你可以把所有GPU内存中的数据在一个单独的变量在每一步之后,然后在n步之后,所有的数据写入文件。缺点是您将使用更多的GPU内存储蓄,但如果你不写作大量数据的每个步伐,应该没事的。
让我知道如果这工作。如果不是,随时分享你的代码,我将进一步看看。
埃里克