fminunc:一个非常奇怪的问题!

10视图(30天)

显示旧的评论

埃米利亚诺·罗索 2022年11月7日

0
链接

这个问题直接联系

//www.tatmou.com/matlabcentral/answers/1845178-fminunc-a-very-strange-problem

编辑: 布鲁诺陈德良 2022年11月9日

答:接受马特·J

嗨

我使用fminunc解决最小化问题。Fminunc hundeads调用一个简单的函数,我优化了gpu来提高性能。

这是当我在cpu和gpu之间做个比较单个调用外部fminuc(测试):

                          TVD = tvd_sim2_mex (x, y, lam幼虫,t);% 0.018秒
                         
                          TVD = tvd_sim2 (x, y, lam幼虫,t);% 0.003 s 6 x

正如你所看到的是快6倍的性能 cpu。

gpu分析告诉我问题是关于gpu malloc。

这就是发生在我1000次调用这个函数:

                          为i = 1:1000
                         
                          抽搐
                         
                          TVD = tvd_sim2_mex (x, y, lam幼虫,t);
                         
                          mytime (i) = toc;
                         
                          结束% 0.0005 s 6 x
                         
                          TVD = tvd_sim2 (x, y, lam幼虫,t);% 0.003秒

正如你所看到的是快6倍的性能 gpu。

现在....我不知道exaclty fminunc内发生函数但粗暴我可以说毫无疑问

两者之间唯一的区别情况tvd_sim2的函数。没有修改fminunc。

gpu总是删除记忆的每一个电话。

函数tvd_sim2 fminunc之前只编译一次。

这是当我使用tvd_sim2和tvd_sim2_mex fminunc之间做个比较

(函数tvd_sim发射fminunc):

                          抽搐
                         
                          (y,成本)= tvd_sim (x,林,幼虫,t);运行%些微tvd_sim2
                         
                          toc
                         
                          解算器过早地停止。
                         
                          fminunc停止,因为它超过了迭代的极限,
                         
                          选项。MaxIterations = 5.000000 e + 01。
                         
                          运行时间是48.020835秒。
                         
                          和:
                         
                          抽搐
                         
                          (y,成本)= tvd_sim (x,林,幼虫,t);%运行tvd_sim2_mex
                         
                          toc
                         
                          解算器过早地停止。
                         
                          fminunc停止,因为它超过了迭代的极限,
                         
                          选项。MaxIterations = 5.000000 e + 01。
                         
                          运行时间是179.953791秒。

在几句话....为什么它慢即使它更快吗?

我认为....在my "1000 times for loop" the variable y 每次总是平等但fminunc变化。

这是由于优化。

但这是一个错误的问题:

                          为i = 1:1000
                         
                          y =兰德(4096 1);
                         
                          抽搐
                         
                          TVD = tvd_sim2_MEX_mex (x, y, lam幼虫,t);
                         
                          mytime (i) = toc;
                         
                          结束
                         
                          disp (”同时,“);
                         
                          disp(意味着(mytime));
                         
                          的意思是时间:
                         
                          5.5624 e-04

事实是gpu内存重新分配每个函数调用,没有区别相同的输入或另一个!

我添加函数运行的截图和gpu。你可以看到所有的时间负责这个函数。

环境变量(广义)可以因此大幅修改gpu的性能运行相同的代码?

或以外的证据是不相同的代码吗?

谢谢!

23日评论
显示22个年长的评论隐藏22年长的评论

埃米利亚诺·罗索 2022年11月7日

编辑:埃米利亚诺·罗索 2022年11月7日

我不使用gpuarray。

这是我的参数:

                                ARGS =细胞(1,1);
                               
                                ARGS{1} =细胞(5、1);
                               
                                ARGS{1}{1} =编码器。typeof (0, [mex1 mex2]);
                               
                                ARGS{1}{2} =编码器。typeof (0, [mex1 mex2]);
                               
                                ARGS {1} {3} = coder.typeof (0);
                               
                                ARGS {1} {4} = coder.typeof (0);
                               
                                ARGS {1} {5} = coder.typeof (0);

这是我codegen:

                                cfg = coder.gpuConfig (墨西哥人的);
                               
                                cfg.GpuConfig。CompilerFlags =“——fmad = false”;
                               
                                cfg。GenerateReport = true;
                               
                                % cfg.GpuConfig.MallocMode =“统一”;
                               
                                cfg.GpuConfig.ComputeCapability =“5.2”;
                               
                                % cfg.GpuConfig。EnableMemoryManager = true;
                               
                                % cfg.GpuConfig。基准测试= true;
                               
                                cfg.MATLABSourceComments = true;
                               
                                codegen配置cfg tvd_sim2_MEX ARGS参数{1}

我尝试了很多方法:

                                ARGS{1}{1} =编码器。typeof (0, [mex1 mex1]);
                               
                                ARGS{1}{1} =编码器。typeof ([mex1 mex1]);
                               
                                ARGS{1}{1} =编码器。typeof (0, [mex1 mex1),“图形”,真正的);
                               
                                ARGS{1}{1} =编码器。typeof ([mex1 mex1),“图形”,真正的);
                               
                                ARGS {1} {1} = 0 (mex1 mex1);
                               
                                ARGS {1} {1} = 0 (mex1 mex1,“gpuArray”);

但gpuarray慢。

布鲁诺陈德良 2022年11月9日

编辑:布鲁诺陈德良 2022年11月9日

我不懂的东西:screenshit执行时间是31日年代和168年代分别与307275 cpu和mex-gpu函数调用。这使得在每个函数调用的平均时间

                                avggputime = 168.3/307275
                               
                                  avggputime = 5.4772 e-04

                                avgcputime = 31.022/307275
                               
                                  avgcputime = 1.0096 e-04

gpu的时间然后兼容你用什么衡量的for循环1000电话;

                                为i = 1:1000
                               
                                抽搐
                               
                                TVD = tvd_sim2_mex (x, y, lam幼虫,t);
                               
                                mytime (i) = toc;
                               
                                结束% 0.0005 s 6 x
                               
                                TVD = tvd_sim2 (x, y, lam幼虫,t);% 0.003秒

cpu突然就快x 30 FMINUNC(从3到0.1 ms),但不是GPU被任何慢拉伸(约0.5毫秒)。

我理解正确或错过什么吗?

你应该后不同时间的确切代码;等....不剪,我们可以验证你在做什么。

埃米利亚诺·罗索 2022年11月9日

编辑:埃米利亚诺·罗索 2022年11月9日

我试图概要这段代码相同的指标:

                                为i = 1:307275
                               
                                y =兰德(4096 1);
                               
                                TVD = tvd_sim2_MEX (x, y, lam幼虫,t);
                               
                                结束
                               
                                和
                               
                                为i = 1:307275
                               
                                y =兰德(4096 1);
                               
                                TVD = tvd_sim2_MEX_mex (x, y, lam幼虫,t);
                               
                                结束

分析器fminunc

avggputime = 168/307275

avggputime = 5.4674 e-04

avgcputime = 31/307275

avgcputime = 1.0089 e-04

分析器for循环307275次

avggputime = 333/307275

avgvputime = 1.0837 e 03

avgcputime = 37/307275

avgcputime = 1.2041 e-04

fminuncratio = gpu / cpu = 5.4674 e-04 / 1.0089 e-04 = gpu比cpu 5.42慢

forloopration = gpu / cpu = 1.00837 e 03 / 1.2041 e-04 = gpu比cpu 8.37慢

这是一个很大的错误!

唯一的问题是tic toc给了我一个错误的幻觉,但真的比cpu gpu性能自然慢吗?

“cpu突然快x 30 FMINUNC(从3到0.1 ms),但不是GPU被任何慢拉伸(约0.5 ms)。”

也许这不是真的,这是由于比较不同指标由分析器和抽搐toc

所以我就解决了这个神秘仅仅通过溶解一种幻觉?

马特·J 2022年11月9日

编辑:马特·J 2022年11月9日

我们和马特(他是第一个人)告诉你GPU来回需要转移数据,不可以忽略不计

然而,你可能会取得更好的效率如果重写你的GPU墨西哥人,而不是交换与CPU输入/输出,它的叶子在GPU,返回输出和接受输入gpuArrays的形式。这样可以使整个迭代循环的优化是在GPU上执行,避免了CPU / GPU转移。

你需要找到一个优化解算器,支持gpuArray输入。金宝app优化工具箱解决fminunc不一样,但fminsearch确实可能有一些第三方解决无约束文件交换。当然,要注意fminsearch只适用于少量的未知变量的问题(< = 6)。

埃米利亚诺·罗索 2022年11月9日

编辑:埃米利亚诺·罗索 2022年11月9日

嗨

布鲁诺陈德良

好,但是指标给了不同的结果,这就是我必须理解,抽搐toc的使用和比较不同的指标给了不清楚的结果和生成的幻想。

这是我的争议的原因。

我也考虑问题关闭,我谢谢您的合作和耐心。

马特·J

你意味着我必须找到一个版本的fminunc(或另一个具有相同性能)外部tvd_sim2_mex执行的操作(如梯度计算)没有翻译中间结果在gpuarray但让他们和操作?

所以时间无关的物理数据传输从gpu工作区,但翻译gpuarray双数组cpu消耗是哪一个?

我试着fminsearch第一但我很长的执行时间,无法使用它。

我使用5个未知变量但其中两个是4096年x1,

未知变量的数量必须是4096 * 2 + 3 = 8195 ?

这是为什么我不能使用fminsearch问题?

感谢所有!

马特·J 2022年11月9日

编辑:马特·J 2022年11月9日

你意味着我必须找到一个版本的fminunc(或另一个具有相同性能)外部tvd_sim2_mex执行的操作(如梯度计算)没有翻译中间结果,但离开他们吗

@Emiliano罗索需要澄清的是,fminunc不会gpuArray结果转化为CPU的结果。它将抛出一个错误除非你tvd_sim2_mex提供CPU双输出数组。你必须找到另一种优化程序,不会抛出这样一个错误如果你的墨西哥人离开它的结果作为gpuArray GPU。没有真正原因fminunc应要求这个,我可以看到。所有的“外部操作”fminunc确实是简单的矩阵代数操作gpuArray应该已经支持。金宝app

埃米利亚诺·罗索 2022年11月9日

非凡的! ! !

我必须花时间……

谢谢!

登录置评。

在回答这个问题。

接受的答案

马特·J 2022年11月7日

0
链接

直接链接到这个答案

//www.tatmou.com/matlabcentral/answers/1845178-fminunc-a-very-strange-problem answer_1093113

编辑:马特·J 2022年11月7日

如果要我猜,GPU无法实现更快的速度,因为fminunc要求你把GPU计算的结果回到CPU每次调用目标函数。这是因为fminunc做中间的计算必须发生在CPU上。似是而非,CPU-GPU传输的开销,鉴于你的目标的简单性,是控制计算时间。

为什么你的一些时间实验不承担这一点还不清楚,但正如沃尔特说,目前还不清楚您的计时方法是有效的。tic和toc本身是不可靠的,除非你做同步与MATLAB的GPU。你应该被使用 gputimeit 相反,在CUDA代码什么的,我猜( __syncthreads ())。

10评论
显示9年纪大的评论隐藏9以上的评论

埃米利亚诺·罗索 2022年11月8日

编辑:埃米利亚诺·罗索 2022年11月8日

谢谢你的回答!

“他们不似乎非常大的我,只有0.0025秒。我很好奇地想知道gputimeit(),或者只是时间()。”

好吧,我尝试你的建议:

                                   t = 0 (1,1);
                                  
                                   t = gputimeit (@ () tvd_sim2_mex (x, y, lam幼虫,t));% 0.0012秒
                                  
                                   t = 0 (1,1);
                                  
                                   为i = 1:1000
                                  
                                   t = gputimeit (@ () tvd_sim2_mex (x, y, lam幼虫,t));% 0.0014秒
                                  
                                   tmean (i) = t;
                                  
                                   结束
                                  
                                   disp(意味着(t));
                                  
                                   t = 0 (1,1);
                                  
                                   为i = 1:1000
                                  
                                   y =兰德(4096 1);
                                  
                                   t = gputimeit (@ () tvd_sim2_mex (x, y, lam幼虫,t));% 0.0012秒
                                  
                                   tmean (i) = t;
                                  
                                   结束
                                  
                                   disp(意味着(t));

似乎表演都是相似的。

根据这个新的测试gpu是cpu快3倍的尊重:

TVD = tvd_sim2 (x, y, lam幼虫,t);% 0.003秒

这是fminunc内部矛盾的性能。

嗨Hariprasad Ravishanka,谢谢你的回答,这是我的功能:

                                   函数(TVD) = tvd_sim2_MEX (x, y, lam幼虫,t)% # codegen
                                  
                                   coder.gpu.kernelfun
                                  
                                   [n m] =大小(y);
                                  
                                   diffxx = x (2: n, 1) - x (1: n - 1, 1);
                                  
                                   TVD = 1/2。*总和(abs (((x) /((双(abs (y) - t > 0)。* y / t) +…
                                  
                                   双(~(双(abs (y) - t > 0)。* y / t)))。^ ^ 2)) + 2)…
                                  
                                   lam。*总和(abs (diffxx (2: n - 1, 1) -diffxx (1: n - 1)));
                                  
                                   结束

这是一个修改版的总变分去噪。原公式没有数值近似,我添加了一些约束,以避免fminunc需要一些副。所以它必须最小化。

“我也注意到cfg.GpuConfig。EnableMemoryManager没有打开。有原因吗?”

我试着把它放在真实的但是没有早些时候的区别两个方面。

埃米利亚诺·罗索 2022年11月9日

下面的代码:

                                   函数[xden, fval] = tvd_sim (y, lam幼虫,t)
                                  
                                   rng默认的%的再现性
                                  
                                   [n m] =大小(y);
                                  
                                   y0 = y;
                                  
                                   ObjectiveFunction = @ (y) tvd_sim2 (y, y0, lam幼虫,t);
                                  
                                   选择= optimoptions (“fminunc”,“麦克斯特”,50岁,“ObjectiveLimit”0,“MaxFunEvals”,…
                                  
                                   正无穷,“TolFun”1 e-06“UseParallel”、假);
                                  
                                   [xden, fval] = fminunc (ObjectiveFunction y选项);
                                  
                                   结束
                                  
                                   函数(TVD) = tvd_sim2 (x, y, lam幼虫,t)% # codegen
                                  
                                   coder.gpu.kernelfun
                                  
                                   [n m] =大小(y);% x资料片columnwise去噪
                                  
                                   diffxx = x (2: n, 1) - x (1: n - 1, 1);
                                  
                                   TVD = 1/2。*总和(abs (((x) /((双(abs (y) - t > 0)。* y / t) +双(~(双(abs (y) - t > 0)…
                                  
                                   。* y / t))) ^ 2) ^ 2)) + lam。*总和(abs (diffxx (2: n - 1, 1) -diffxx (1: n - 1)));
                                  
                                   结束

这是cpu timeinit:

                                   t = 0 (1,1);
                                  
                                   为i = 1:1000
                                  
                                   时间t = (@ () tvd_sim2 (x, y, lam幼虫,t));% 0.0014秒
                                  
                                   tmean (i) = t;
                                  
                                   结束
                                  
                                   disp(意味着(t));

1.1071 e-04

0.0012对。

比率e-04 gpu / cpu = 0.0012/1.1071 = 10.83

gpu比cpu x10慢。

这就是我发现:

https://it.mathworks.com/matlabcentral/answers/1845178-fminunc-a-very-strange-problem comment_2455708

这是一个很大的错误!

唯一的问题是tic toc给了我一个错误的幻觉,但真的比cpu gpu性能自然慢吗?

所以我就解决了这个神秘仅仅通过溶解一种幻觉?

登录置评。

更多的答案(2)

Ram Kokku 2022年11月8日

0
链接

直接链接到这个答案

//www.tatmou.com/matlabcentral/answers/1845178-fminunc-a-very-strange-problem answer_1093743

编辑:沃尔特·罗伯森 2022年11月8日

嗨 @Emiliano罗索 ,

正如我的同事Hariprasad提到,GPU编码器是一种能力

分配内存,一旦和重用的后续调用。使用cfg.GpuConfig。EnableMemoryManager = true;启用这个。
采用MATLAB gpuArray作为输入。你已经这样做了。但这并不总是有帮助。例如,如果GPU编码器选择保持第一次使用一个特定的输入对CPU(由于某种原因),它会产生一个额外的副本。

此外,

你可以用gpucoder。概要文件(//www.tatmou.com/help/gpucoder/ref/gpucoder.profile.html)找到瓶颈。
使用细胞数组和结构可能不玩会与GPU编码器把副本。考虑打破细胞分离变量数组元素。
看看生成的代码,看看GPU编码器能够并行化代码的关键部分。
如果你愿意分享你的代码,我可以快速浏览。

5个评论
显示4年长的评论隐藏4年长的评论

埃米利亚诺·罗索 2022年11月8日

编辑:埃米利亚诺·罗索 2022年11月8日

你好,谢谢你的回答

我试图设置:

cfg.GpuConfig.EnableMemoryManager=真正的;

但是没有早些时候的区别两个方面。

这是我的功能:

                                   函数(TVD) = tvd_sim2 (x, y, lam幼虫,t)% # codegen
                                  
                                   coder.gpu.kernelfun
                                  
                                   [n m] =大小(y);
                                  
                                   diffxx = x (2: n, 1) - x (1: n - 1, 1);
                                  
                                   TVD = 1/2。*总和(abs (((x) /((双(abs (y) - t > 0)。* y / t) +…
                                  
                                   双(~(双(abs (y) - t > 0)。* y / t)))。^ ^ 2)) + 2)…
                                  
                                   lam。*总和(abs (diffxx (2: n - 1, 1) -diffxx (1: n - 1)));
                                  
                                   结束

这是一个修改版的总变分去噪。原公式没有数值近似,我添加了一些约束,以避免fminunc需要一些副。所以它必须最小化

至于你的其他建议他们肯定会非常有用,我将在适当的时候使用它们,但这是一个潜在的问题,我必须解决之前经历正常的优化。显然似乎在相同的条件下,除了fminunc内,相同的功能表现不同,我不能理解为什么。

埃米利亚诺·罗索 2022年11月8日

编辑:埃米利亚诺·罗索 2022年11月8日

“abs没有影响。”

是的,这是真的,我将修改它!

现在我看到你的代码,我将试着验证!

谢谢!

登录置评。

布鲁诺陈德良 2022年11月8日

0
链接

直接链接到这个答案

//www.tatmou.com/matlabcentral/answers/1845178-fminunc-a-very-strange-problem answer_1094023

编辑:布鲁诺陈德良 2022年11月8日

只是在黑暗中射击,想知道如果你让UseParallel选项fminunc对还是错?可能是梯度计算是有效的在GPU CPU而不是取决于这个选项。

还你的目标函数不是很微的逻辑,abs,可能是fminunc难以优化,和时间更灵敏数值截断,gpu-mex和cpu-matlab是不同。

顺便说一句目标函数很简单计算分析梯度。

11日评论
显示十年长的评论隐藏10年长的评论

埃米利亚诺·罗索 2022年11月8日

编辑:埃米利亚诺·罗索 2022年11月8日

Bruno陈德良

好吧,我试着:

gpumex fminunc选项“UseParallel”,如此:265年代

gpumex fminunc选项“UseParallel”,错误:400年代

cpu fminunc选项“UseParallel”,如此:31

cpu fminunc选项“UseParallel”,错误的:54

mexcpu相同的cpu可能是因为墨西哥人存在但在Matlab优化的内部函数。

正如你所看到的平行的使用可以改善外部的梯度计算tvd_sim2_mex你告诉我。

但是正如你所看到的屏幕截图我指控在主后,大部分时间在tvd_sim2_mex,不是在梯度计算在fminunc算法。这是原因,即使并行的使用提高了性能,你可以看到大gpu和cpu之间的区别。

我不能理解你的意思是什么?

马特·J。

是的,结果一致,一个很小的近似。

谢谢!

布鲁诺陈德良 2022年11月8日

编辑:布鲁诺陈德良 2022年11月8日

”他大多数时间是在tvd_sim2_mex,不是在梯度计算”

我觉得你还是不明白我的理论(这显然是不正确的)/

梯度计算顺序调用tvd_sim2_mex或平行在GPU并行化根据不同的选择。我的理论是,可能会有一些交通堵塞如果GPU内存是有限的,车上的数据transfererd,或是土星的最大线程GPU可以处理等等……这是不同的,当你测试以来一个for循环函数进行了1000年时间,但按顺序。

我不相信你可以看时间报告的分析器和确保函数执行放缓没有考虑其他活动同时发生(在这种情况下fminunc UseParallel选项)。

布鲁诺陈德良 2022年11月9日

“如果这可以帮助”

当然我会记住的等待接下来tic-toc GPU最佳化代码。

登录置评。

在回答这个问题。

类别

并行计算并行计算工具箱 GPU计算

找到更多的在GPU计算在帮助中心和文件交换

下载188bet金宝搏

释放

R2020b

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!

fminunc:一个非常奇怪的问题!

23日评论
显示22个年长的评论隐藏22年长的评论

接受的答案

10评论
显示9年纪大的评论隐藏9以上的评论

更多的答案(2)

5个评论
显示4年长的评论隐藏4年长的评论

11日评论
显示十年长的评论隐藏10年长的评论

另请参阅

类别

标签

下载188bet金宝搏

释放

社区寻宝

fminunc:一个非常奇怪的问题!

23日评论 显示22个年长的评论隐藏22年长的评论

接受的答案

10评论 显示9年纪大的评论隐藏9以上的评论

更多的答案(2)

5个评论 显示4年长的评论隐藏4年长的评论

11日评论 显示十年长的评论隐藏10年长的评论

另请参阅

类别

标签

下载188bet金宝搏

释放

社区寻宝

23日评论
显示22个年长的评论隐藏22年长的评论

10评论
显示9年纪大的评论隐藏9以上的评论

5个评论
显示4年长的评论隐藏4年长的评论

11日评论
显示十年长的评论隐藏10年长的评论