图片缩略图

Gpubench.

版本2.0(448 kB) MathWorks并行计算工具箱团队
在MATLAB中使用标准数值基准比较gpu。
4.8
40评级

197下载

更新20月23日11月23日

视图版本历史

查看许可证

编者按:此文件被选为Matlab Central本周精选

GPUBENCH计算不同MATLAB GPU任务的时间,并估计GPU在浮点运算每秒(FLOP/s)中的峰值性能。它生成一个详细的HTML报告,显示您的GPU性能与其他GPU预存储性能结果的比较。
注意,这个工具是为比较GPU硬件而设计的。它没有比较不同MATLAB版本的GPU性能。
需要MATLAB R2016b或以上并用CUDA计算能力2.0或更高的GPU。

引用作为

MathWorks并行计算工具箱团队(2021)。Gpubench.(https://www.mathwands.com/matlabcentral/fileexchange/34080-gpubench),Matlab中央文件交换。检索到

评论和评级(103

我很想看到我的卡的结果,也因为我买了它来帮助我的天文程序,当然不是视频游戏......不幸的是,刚刚推出,程序强迫电脑重启,我无法继续。该卡是NVIDIA RTX 2080 TI F.E.和MATLAB(R2020B)定期看到。我有一个基于ACPI X64的PC,CPU Xeon E5-1630 V3,MB Supermicro X10SRI-F,16273 MB注册的ECC DDR4 SDRAM,OS Microsoft Windows 10 Pro。如果有人想帮助,请与我联系。谢谢!

Meme Young.

双精度结果(GFLOPS)单精度结果(GFLOPS)
MTimes FFT反斜杠反斜杠MTimes FFT
你的GPU(的GeForce 2070 RTX超)306.41 207.53 139.32 8538.77 1218.74 711.00
你的CPU(英特尔酷睿i7 10750H)173.16 109.57 16.82 345.26 249.14 36.57
我的电脑是微星豹10SFSK 294CN,16GB内存+ 128GB SSD + 1TB HHD

格言

AMD Ryzen 9 3950X @ 3.49 GHz的|64 GB |的GeForce 3090 RTX
双重精度结果(在GFLOPS)
--------------------------------------------------
Gpu: 483.12 | 274.72 | 257.84
Cpu: 552.59 | 198.93 | 18.41
单精度结果(GFLOPS)
--------------------------------------------------
Gpu: 17973.58 | 2083.37 | 1413.45
CPU:1163.05 |560.49 |31.80.

马丁Gödeker

(特斯拉V100S-PCIE-32GB)
双重精度结果(在GFLOPS)
--------------------------------------------------
MTimes 6587.19
反斜杠1030.59
FFT 912.06

单精度结果(GFLOPS)
--------------------------------------------------
MTimes 13632.57.
反斜杠1858.59
FFT 1695.54

晓天 李

(GeForce RTX 2080)
双重精度结果(在GFLOPS)
==========================================.
mtimes反斜杠
332.66 290.89 150.61
==========================================.
单精度结果(GFLOPS)
mtimes反斜杠
9965.63 2902.02 757.50

Ben Tordoff.

为了完整起见,这是对M.G.的回答的问题张贴在MATLAB的回答:
//www.tatmou.com/matlabcentral/answers/474879-gpu-recommendation-for-deep-learning-and-ai

(请参阅评论部分)

M.G.

我需要做出决定哪些GPU买(深学习),我将不胜感激回答以下问题,以能够确定我应该买哪GPU。

不Matlab的默认(具体地说,强化学习工具箱)使用深度学习单精度计算?

我知道MATLAB通常使用双精度计算,我注意到,具有高单精度计算速度的大多数图形卡(RTX 2000和3000系列)具有相当慢的双精度速度(1:32)。只有超级昂贵的GPU(如V100和A100),保持双精度(1:2)的高速计算。因此,如果MATLAB默认为单精度,我只能购买相对便宜的卡片并在加固学习工具箱上获得良好的性能。否则,我必须购买更昂贵的卡,以便能够在双精度上获得高速。

我真的很欣赏这里一些帮助:d

思南伊斯兰教

nguyen hung anh

英特尔(R)核心(TM)I5-5200U CPU @ 2.20GHz |8GB RAM |GT 940M
==========================================.
双精度
MTimes |反斜杠| FFT
Gpu: 24.56 | 18.30 | 10.73
CPU:49.55 |42.80 |4.93
==========================================.
单精度
MTimes |反斜杠| FFT
Gpu: 518.49 | 153.81 | 24.93
CPU:107.68 |83.30 |8.62

Richard Troup.

Intel i9-9750H CPU @2.60GHz 6核,NVidia RTX 2080 Qmax
============================================.
双精度
MTimes |反斜杠| FFT
GPU:331.17 201.42 146.93
CPU:151.21 112.27 14.00
==========================================.
单精度
MTimes |反斜杠| FFT
图形处理器:8361.31 1076.59 612.33
CPU:317.02 243.40 29.39
==========================================.

罗宾·范

Intel(R) Core(TM) i7-9700K CPU @ 3.60GHz | 32GB RAM 2666 MHz | Nvidia RTX 2080 SUPER
============================================.
双精度
MTimes |反斜杠| FFT
Gpu: 355.97 | 183.51 | 149.37
CPU:314.63 |156.11 |16.13
==========================================.
单精度
MTimes |反斜杠| FFT
GPU:10683.54 |1196.45 |647.30.
CPU:622.69 |386.47 |40.32
==========================================.

肯塔塔

非常好!谢谢

布莱恩·艾瑟

英特尔Xeon W-3265 | 192GB ECC RAM | Nvidia Titan RTX
============================================.
双精度
MTimes |反斜杠| FFT
Gpu: 494.31 | 390.03 | 217.41
CPU:1307.66 |323.78 |26.30
==========================================.
单精度
MTimes |反斜杠| FFT
GPU:15374.46 |3683.54 |1093.00
CPU:2436.82 |639.88 |44.70.
==========================================.

Cavuscens Marc.

Shoobean Jhau.

Sato Shunichiro

英特尔(R)至强(R)黄金6230 CPU @ 2.10GHz |96GB RAM |RTX的Quadro 6000
==========================================.
双精度
MTimes |反斜杠| FFT
GPU:545.57 |517.06 |240.11
Cpu: 1647.39 | 324.92 | 21.03
==========================================.
单精度
MTimes |反斜杠| FFT
Gpu: 14720.67 | 2960.43 | 985.47
CPU:3126.55 |610.91 |35.15
==========================================.

Yuto Ozaki

英特尔(R)酷睿(TM)i7-5820K CPU @ 3.30GHz |M5000的Quadro
================================================
双精度
MTimes |反斜杠| FFT
Gpu: 120.01 | 94.90 | 66.92
Cpu: 207.12 | 136.36 | 7.92
==========================================.
单精度
MTimes |反斜杠| FFT
Gpu: 3885.49 | 1329.31 | 296.31
CPU:415.55 |261.23 |12.72
==========================================.

塞隆法雷尔

在它完成运行后,没有HTML报告跳出来。任何带有浏览器设置的东西?

布莱恩·艾瑟

英特尔Xeon W-2125 | 64GB RAM |
================================================
双精度
MTimes |反斜杠| FFT
Gpu: 501.40 | 238.15 | 226.72
Cpu: 318.83 | 138.90 | 12.04
==========================================.
单精度
MTimes |反斜杠| FFT
GPU:12856.65 |1844.82 |791.83.
Cpu: 654.36 | 319.05 | 21.06
==========================================.

阿诺德

英特尔9900K @股票|64GB RAM |nvidia titan rtx.
==========================================.
双精度
MTimes |反斜杠| FFT
GPU:534.63 |340.87 |239.43
CPU:394.33 |200.68 |16.47
==========================================.
单精度
MTimes |反斜杠| FFT
Gpu: 13570.52 | 2974.16 | 924.16
CPU:734.57 |418.49 |34.77
==========================================.

???????????

AMD Ryzen Threadripper 2950X
GeForce RTX 2070
==========================================.
双精度
MTimes |反斜杠| FFT
291 | 169 | 134
主机PC |158 |105 |11.
==========================================.
单精度
MTimes |反斜杠| FFT
7974 | 1515 | 795
主机PC | 400 | 264 | 19
==========================================.

Youngssuk Jung.

xeon gold 6126 dual / 128 GB
Quadro GV100 dual(我不确定两个gpu都工作)
双精度反斜杠的结果太低。
==========================================.
双精度
MTimes |反斜杠| FFT
6828 |350 |525.
主机PC | 588 | 124 | 12
==========================================.
单精度
MTimes |反斜杠| FFT
13879 |1683 |1043.
主机PC | 1137 | 267 | 18
==========================================.

约书亚·格里森

Ben Tordoff.

Hi Mohammed,通常gpuBench会测量你的GPU和CPU,让你知道你可能达到的最佳情况下的加速。如果没有检测到GPU,你应该选择只在CPU上运行,这样你就可以看到不同的GPU与你的CPU相比,如果你安装了它们,它们会给你带来什么样的速度。这是你所看到的,还是它只在CPU上运行而没有提供选择?

虽然它可能看起来很奇怪,但能够将你的CPU与各种GPU进行比较,很多人都对购买GPU的许多人有用。

mohammadsdtmnd

它在CPU上运行GPU计算,不是很奇怪吗?

Shuhei Torisaki.

达尔蒂奥维斯

8月GURNANI

爱德华Szuminski.

嗨,刚刚在Nvidia K80上运行,得到了(顺便说一下,卡上只使用了一个GPU,如何快速更改它?)

警告:F的测量时间可能是不准确的,因为它运行太快。尝试测量
需要更长的时间。
>在timeit(第158行)
在gpubench> itimeit(第323行)
在gpuBench>中runMTimes(第207行)
在gpuBench中(第103行)
在gpuBenchLauncher中(第11行)
在GPubenchApp / StartApp(第88行)
在gpuBenchApp中(第48行)
在appinstall.internal.runapp>中执行(第78行)
在appinstall.internal.runapp> runapp13a(线57)
在AppInstral.internal.RunApp> RuncorCrectVersion(第36行)
在appinstall.internal.runapp中(第18行)

KSSV

马尔科姆。库克

我的TITAN X (Pascal)结果如下。

我想应该想到的双精度运算在11继续进行TFLOP / 32 =〜343 GFLOP

这是基于阅读http://www.guru3d.com/articles-pages/nvidia-geforce-titan-x-pascal-review,1.html

343 GFLOP就是你在下面的基准表中看到的,所以我认为我得到了我所支付的。

数据类型'单次'的数据类型'单'结果结果
(在GFLOPS)(在GFLOPS)
MTimes FFT反斜杠反斜杠MTimes FFT
TITAN X (Pascal) 357.95 308.44 187.75 7349.88 2175.31 632.93

我欣赏的反馈。我的推理正确吗?

nike dattani.

你为什么不把结果公布出来呢?

丽贝卡济科

i7 7700K CPU @ 4.2 GHz / 16GB RAM (3200MHz)
CUDA 8.

==========================================.
双精度
MTimes |反斜杠| FFT
GeForce GTX 1080ti |423 |286 |190
主机PC | 258 | 162 | 23
==========================================.
单精度
MTimes |反斜杠| FFT
GeForce GTX 1080Ti | 11907 | 1897 | 679
主机PC | 502 | 340 | 33
==========================================.

哈雷尔

Mac用户仍然希望!

MBP 2016 I i7-6920HQ CPU @ 2.90GHz
记忆16GB.
CUDA 8,
结果:

==========================================

Double Precision

MTimes | Backslash | FFT

GeForce GTX 980 Ti | 190 | 165 | 104

主机PC | 157 | 105 | 12

==========================================

单精度

MTimes | Backslash | FFT

GeForce GTX 980 Ti | 5998 | 1058 | 433

Host PC | 316 | 202 | 20

==========================================

托尼

格雷格

benkant

艾德里安

菲利普

https://devblogs.nvidia.com/parallelforall/cuda-8-features-revealed/

希望我们很快就能得到Pascal的支持。金宝app

osnr

i7-6850K@3.60GHz,CUDA 8RC,16GB内存

结果:
==========================================.
双精度
MTimes |反斜杠| FFT
GeForce GTX 1080 | 276 | 188 | 139
主机PC | 204 | 124 | 8
==========================================.
单精度
MTimes |反斜杠| FFT
GeForce GTX 1080 |5273 |1403 |422.
主机PC |367 |245 |15.
==========================================.

仔细检查个别曲线:

——FFT(double)在ArraySize=4M之后下降
——MTimes(single) drop after ArraySize=4M
——FFT(single) drop after ArraySize=16M

阿诺德

马丁,
我对此也很感兴趣,但很明显,“pascal”Geforce TitanX的性能将比1080GTX高出约30%。由于CUDA 7.5的当前版本没有完全支持pascal平台,目前的单精度性能还没有达到预期的水平(GTX1080应该是>8Tflop/s,而TitanX应该是<12Tflop/s)。金宝app
至于双精度,泰坦克像任何GeForce卡都不会抵御您的K40C的机会,因为NVIDIA希望出售多功能的Tesla卡。

在单精度,1080GTX已经是20%,比yourK40c快,但它是160%,更快的硬件明智的。

马丁Erinin

有人会使用最新的泰坦X愿意发表自己的基准测试结果?我现在有一个K40c,我使用的计算(主要是FFT)和我正在寻找购买更多的计算能力(双精度)。从我了解的FFT主要是内存势必所以像泰坦X可能会在价格上便宜很多工作,以及在K40c。我已为我的结果从下面的K40c。

双人间|MTimes |反斜杠| FFT
特斯拉K40c | 1154.72 | 706.48 | 135.51
主机PC | 186.81 | 117.49 | 4.97

单| MTimes |反斜杠| FFT
特斯拉K40c |3071.64 |1284.10 |299.57
主机PC |468.12 |226.27 |8.94

阿诺德

谢谢,艾莉森,我刚才试过了。在整个计算机重新启动后工作。

Matlab/ GPU尝试使用简单的过滤器medfilt2(a,[9,9])时总是崩溃。小一点的社区还可以,大一点的就不行。空闲内存是NaN,除了重新启动Matlab,没有任何帮助。硬件似乎坚如磐石,用其他CUDA代码进行了几天的压力测试。这是一个描述。http://de.mathworks.com/matlabcentral/answers/299970-reset-gpudevice-does-not-work

我并不想进入这里的细节,错误的地点,但目前我们的底线是,我们计划扩大与一些8或12万亿次的利用Matlab加上消费者的GPU(1080GTX,TitanX)我们的模拟工作为了钱听起来很大(我们只需要单精度)。在这一点上,虽然,我不相信组合的运行速度非常强劲。

也许CUDA 8会解决这个问题,然后/或者2016b。

艾莉森Eele

嗨,阿诺德

停止这种延迟重复用于在MATLAB使用第一gpuArray或其它GPU命令的GTX1080的一种方法是设置您的系统被称为CUDA_CACHE_MAXSIZE上的环境变量。这是默认设置为32MB,当我们重新优化我们的图书馆为帕斯卡架构没有足够的空间。因此,而不是一次性的优化延迟发生的每一次。

从实验我们建议这个500MB之间的大小设置为1GB。为了设置缓存为1GB使用CUDA_CACHE_MAXSIZE 1073741824.在Windows中,你可以在属性>高级系统设置>环境变量做到这一点。

阿诺德

嗨本,

关于延迟。是的,很出乎我的意料它目前需要像一分钟(!)左右打开第一gpuArray我每次运行MATLAB中,例如快速分析大量图像哪一种失败的目的。执行这个基准时发生的一样,花了很长的甚至开始之前。这似乎是属于你的CUDA 7.5的描述中即可。
如果NVidia更新CUDA,当前的Matlab版本会得到更新吗?因为在英伟达发布后再等6个月(最糟糕的情况)将是一个耻辱。
我还抱着购买新的私人许可证,则因为使用GPU是exaclty我打算在家里做的一样好了。在工作中,我们有一个订阅计划,所以不用担心有....“当它这样做”。

谢谢你让我知道,我字面上准备购买一个家庭使用的r2016a许可证,但这将是一种浪费,然后如果我需要CUDA 8的Pascal和Matlab可能不会去提供它的r2016a ....

阿诺德

asa旁注:
我在使用gpuArrays与MATLAB的问题,比如medfilt2(A,[11,11])老是死机,而尺寸的7.7仍然有效。
只有重新启动matlab才能使GPU再次可用。

Ben Tordoff.

嗨,阿诺德,谢谢你分享这些结果。

尽管时间可能是一个问题在较小的尺寸,我认为真正的原因你没有看到太多的增益GTX1080 MATLAB中使用的版本的CUDA和并行计算工具箱(CUDA 7.5和更早的)不直接支持新的“帕斯卡”类gpu。金宝app相反,它们会退回到对库的即时重新编译,这也是您在首次使用时会看到较大延迟的原因。这意味着生成的算法没有针对新的Pascal GPU架构进行充分优化。

CUDA 8将是第一个拥有本地帕斯卡GPU支持的CUDA释放,但截至目前(8月22日)除了作为“发布候选人”之外尚未提供。金宝app

阿诺德

你好,

在一台新机器(GTX 1080 & Intel 5960X)上进行了测试,得到了一个很好的警告消息:
====================.
警告:f的测量时间可能是不准确的,因为它是
运行过快。尝试测量的东西,需要更长的时间。
====================.

因此,它是快,我想:P,明明只有在单精度(谢谢你,英伟达)。有趣的是,它是远离它的8Tflop /秒,虽然它在理论上具有在单精度。随着4.42 TFLOP /秒,这只是500GFlop / S比GTX 970我试过更快。它可能是,该警告信息是正确的,这个测试不能真正衡量正确的表现?

结果:
==========================================.
双精度
MTimes |反斜杠| FFT
GeForce GTX 1080 |219.50 |175.22 |115.19.
主机PC | 329.06 | 202.88 | 16.29
==========================================.
单精度
MTimes |反斜杠| FFT
GeForce GTX 1080 |4420.24 |1570.92 |414.50.
主机PC | 617.28 | 407.54 | 19.79
==========================================.

斯塔凡

一个普遍的问题,我假设你们中的一些人使用GPU计算和神经网络;有没有人用GPU来解决预测问题,并获得了比使用CPU更快的计算速度?

这里更多的信息:
http://se.mathworks.com/matlabcentral/answers/291744-time-series-prediction-using-neural-networks-narnet-narxnet-is-it-at-all-possible-to-train-a-ne

斯塔凡

玉峰,你的泰坦x得了多少分?

玉黄

马尔科姆:我对这个很感兴趣,你能随时通知我们吗?
(也评价;我在两台不同的机器上运行一台Titan X和一台T2075)
玉丰

Malcolm souness.

我正在2015年年中为macbook pro 15英寸的外接GPU构建过程中。试图找出哪一个是最好的GPU运行雷霆2。

斯塔凡

(阿诺德,我的意思是GTX 980而不是GTX 1070 ...对不起这个)

斯塔凡

感谢阿诺德关于GTX 1070卡的规格。如果我可以让nexus它将有相同的测试执行与GTX 1080卡。明天早上我将添加16gb内存和专业SSD到我的装备,下一步很可能是添加GTX 1080(然而,我预计这张卡的价格很快会下降,并将等待几周后购买)。如果没有人打败我,我将添加规格的GTX 1080卡一旦获得。

阿诺德

的工作原理。
在这个系统上试了一下:
英特尔2500K,的GeForce GTX 970 4GB
==============
双 ----------------------------- 单
MTimes |反斜杠| FFT--- MTimes | Backslash | FFT

的GeForce GTX 970
115.58 |86.22 |62.41 ---- 3755.02 |444.68 |247.94
主机PC.
104.40 |62.44 |7.68 ---- 214.48 |152.65 |14.94

普通卡在双精度下如此遗憾的耻辱

卢卡斯Kortmann

应用程序给出许多警告nargchk是过时的,如果你能相应地更新应用程序就好了。

Shiv特瓦芮

为用户提供一个良好的视角,如果他/她真的想要继续并在GPU上实现他们的代码。你知道,转换你的代码的痛苦vs /s奖励更快的计算。

程乔琳

程乔琳

菲利普

马丁

我只是想指出,只有在从“Freemem = GPU.availableMemory的Gpubench.m中的第442行”中,我就可以在Matlab R2014A上运行它。“freemem = gpu.freememory;”如果别人有同样的问题。干杯,马丁

仙女

@Alex。我完全同意。15英寸Macbook Pro的双精度浮点性能受损。参见GPUBench score @http://www.tinyurl.com/cuda-on-mac

Alex R.

@Fabio:这是在2013年底的Macbook Pro上,2.3 Ghz, 16gb。见最后两行。似乎只有FFT双精度比CPU快(大约是CPU的两倍)。\和*要慢得多。相当糟糕的表现……
苹果应该使用Quadro K1100M(与750 50m相同的物理芯片,但没有受损的双精度)。从外观上看,它真的不值得为750M的MBP上的GPU进行编码。你可以继续用中央处理器。问题是,如果你想购买没有750M但CPU相同的MBP,你最终支付相同的价格(至少这是我在5月份购买它时的情况)。

数据类型'double'的结果
(在GFLOPS中)数据类型为“single”的结果
(在GFLOPS)
MTimes FFT反斜杠反斜杠MTimes FFT

Quadro K6000 1489.50 453.38 141.32 3998.82 737.72 295.48
Tesla K20C 1005.00 490.83 110.40 2690.21 772.21 257.51
特斯拉C2075 327.83 242.26 69.13 684.97 425.15 144.56
GeForce GTX TITAN 213.35 124.43 90.89 3840.88 735.68 328.85
GeForce GTX 680 139.20 97.53 58.82 1468.69 620.54 214.67
2000的Quadro 38.60 33.01 14.18 232.90 122.57 46.32
的GeForce GT 640 18.13 14.08 8.51 185.60 95.49 33.62
的Quadro K600 13.24 10.69 6.17 135.40 0.01 26.57

主机PC 136.45 82.92 7.90 250.23 178.69 5.71
的GeForce GT 750M 27.38 23.01 13.83 348.97 0.03 59.32

仙女

Noel, MacBook Pro retina, 2013年底,i7 2.3GHz, 16gb,带有Nvidia GT 750M离散卡:
C/GPU GFlops |MTimes|反斜杠| FFT| MTimes|反斜杠| FFT|

PC主机| 144.88 |63.95 |6.93 |235.92 |153.01 |11.81

的GeForce GT 750M |27.92 |19.58 |13.04 | 296.35 | 0.03 |60.88

法比奥Freschi

诺埃尔

还有一个请求…有人有最新MacBook Pro内置的Nvidia GT 750M的gpuBench测试结果吗?在我买之前,我想知道双精度到底有多差。提前谢谢。

诺埃尔

新版本发布了R2014a,但仍然没有R2014a的数据,所以GPUBench在报告生产时失败了(如果运行的是R2014a)。一个解决方案是更改R2013b的名称。R2014a垫。mat,则R2014a可以成功运行GPUBench !

菲利普

塞德里克Wannaz

嗨,Ben,是的,我从8针+缺陷6针,到8针+ LP4->6针,现在工作得很好。感谢您的支持!金宝app

Ben Tordoff.

最后澄清一下:您现在是否已经连接了6针和8针连接器?当然,你需要两者都得到完整的250W,这是Titan在峰值负载下可以消耗的。

塞德里克Wannaz

嗨,Ben,谢谢你的评论。经过大量的测试,交换等,我发现我的PSU有一个缺陷,因为它现在工作(gpuBench, 3Dmark等)后,我用双LP4插座+适配器从PSU的直接6引脚出口。

Ben Tordoff.

你好,塞德里克,你能把完整的日志发给我们吗?如果它太大了,不能在这里发布,直接使用上面的作者链接发送。

在猜测这听起来像你超过一定的功率设置,同时运行的计算 - GPU板凳是特意计算(因此功率)重。你肯定有连接两个电源连接器?你的声音PSU不够大,所以这是一个有点奇怪。

塞德里克Wannaz

当我尝试运行GPubench时,我在“GPU单个”测试/部分中时,我会收到电源关闭/重启(在事件日志中命名为“内核 - 电源”)。

GTX Titan Black(插槽PCIe2 16x 75W),安装在DELL Precision T7500上,双Xeon X5550, 24GB RAM, 1110W电源,最新BIOS更新,SERR/DMI禁用,显卡驱动337.88。

Lanier.

win7sp1 64bit, CPU E5-2687Wv2, Matlab 2014a

GTX TITAN黑色1312.05 517.26 150.15 3730.83 881.97 309.47
主机PC 140.18 101.90 6.89 327.19 209.63 9.50

Lanier.

Remsus

谢谢米甲

我认为你有双精度同样的问题,因为我有。

但似乎它需要启用的GTX泰坦双精度模式

它是NVIDIA控制面板中,在管理3D设置,全局设置选项卡。

启用后,事情看起来有很大的不同:
mtimes_d backslash_d fft_d.
GeForce GTX TITAN 1285.83 128.35 146.92
特斯拉C2075 333.84 246.11 73.36

米甲Kvasnicka

Ubuntu 12.04.3 64bit, Matlab R2014a
结果数据类型“双”(在GFLOPS)

数据类型'单'的结果(在GFLOPS中)
MTimesBackslashFFTMTimesBackslashFFT
特斯拉K20c1005.83496.82131.462690.80783.38282.48
特斯拉C2075333.84246.1173.36696.37435.56163.04
的GeForce GTX TITAN213.31130.6995.013826.94514.20365.85
的GeForce GTX 680139.2694.6660.661463.78604.57223.48
GeForce GTX 670117.7381.7752.221165.37519.18201.95
方形住宅区K500085.4864.1741.00955.10451.36172.25
Quadro K400060.5749.6428.40663.63364.36128.24
Quadro K200028.7920.9313.90310.71141.5856.71
GeForce GT 64028.7921.1013.71314.82141.8559.29
主机PC38.9729.152.1079.2947.974.05
的Quadro K60013.2410.386.31135.5771.1227.61

米甲Kvasnicka

与性能CUDADevice:

名称: '的GeForce GTX TITAN'
指数:1
ComputeCapability:“3.5”
金宝appSupportsDouble: 1
DriverVersion: 5.5000
ToolkitVersion: 5.5000
MaxThreadsPerBlock:1024
MaxShmemPerBlock: 49152
MaxThreadBlockSize: [1024 1024 64]
MaxGridSize:2.1475e + 09 65535 65535]
SIMDWidth:32
TotalMemory: 6.4421 e + 09年
FreeMemory: 5.9798 e + 09年
MultiprocessorCount: 14
ClockRateKHz: 875500
ComputeMode: '默认'
GPUOverlapsTransfers: 1
KernelExecutionTimeout: 1
CanMapHostMemory: 1
DEMBOM金宝appECOMPORTED:1
DeviceSelected: 1

Remsus

对于谁得到,最大500个递归错误的人,尽量不要运行该应用程序,但只需要输入gpuBench()。对我来说,它的工作。

是否有关于提应参考结果统计数据的系统?
我们决定使用GeForce GTX TITAN,而不是C2075,因为在规格上它应该优于C2075 ECC内存,但大多数人会关闭它,以获得更快的性能。但现在,当我运行测试时,特斯拉2075在我们的系统中几乎所有方面都击败了GTX,除了MTimes和FFT (SINGLE)。
特别是与参考系统中的C2075的246相比,使用82Gflops的反斜杠双引号非常令人失望。

还有谁有泰坦,可以分享他/她的成果吗?如果是,请发送一个PM。

米甲Kvasnicka

当前版本的gpuBench与R2014a不兼容

米甲Kvasnicka

最新版本R2014A的问题:

已达到最大递归极限500。使用set(0,'RecursionLimit',N)更改限制。要意识到超过你的
可用的堆栈空间可以崩溃MATLAB和/或您的计算机。

gpuBenchApp误差

Ben Tordoff.

谢谢,马修,你说得对,我会修好的。

理想情况下,应使用Timeit(对于主机)或Gputimeit(用于GPU)来测量时序,但如果我开始使用那些,那么这将停止在R2013A和更早的工作。我会尽快发表更新。

Matthew Bergkoetter.

嗨本,
我想说感谢伟大的应用程序,而且要指出的东西,可能会导致在某些情况下不准确的结果。该功能GTOC()是使用wait()的函数(这是好的),但它也呼吁gpuDevice每一次,这实际上是相当缓慢的 - 这通常是3.6和为5.6ms之间需要我的机器上 - 这一次被添加到总数。你可能会考虑将在持久变量gpuDevice的输出,例如gpuid,而是调用wait(gpuid)。
对于大数组的大小,我想这并不重要太多,但对于较小的阵列额外gpuDevice时间可以使它看起来像一个GPU比情况下,CPU在那里它真的不是慢。

Ben Tordoff.

罗德里戈,

GPubench没有显示任何“加速”比较,它显示了每秒浮点操作中的绝对性能(拖鞋)。CPU的结果是CPU在隔离的绝对性能结果,而不是比较。同样用于其他结果。预先存储的“主机”结果是用于捕获结果的机器的绝对性能。

所有的图都包含GPU和主机PC的结果,所以文本应该说“这些结果显示GPU或主机PC在计算时的性能……”。我将解决这个问题。

谢谢

R.

例如,如果我在结果中单击主机PC

“这些结果显示GPU的性能计算时......”

另外,为什么我的CPU有一个加速?大概是因为它在cpu数量增加的情况下使用并行计算,是这样吗?

R.

本,

谢谢你的回答。如果我理解正确,GPUBench报告中高亮显示的GeForce GTX 770M是我自己的GPU的加速,主主机是我的CPU对预存储数据使用的CPU ?

我仍然不清楚结果告诉我什么。也许报告中应该包括更多的解释?

谢谢。

罗德里戈。

Ben Tordoff.

罗德里戈,

“主机”数据根本不使用GPU,它衡量的是你的PC的主CPU。因此,你可能只是看到我们使用了一个相当高规格的PC来承载我们测试的各种GPU(为了让GPU与CPU的比较更加公平)。

R.

你好,谢谢你的精彩投稿!

林发现,我的电脑(主机)是相当慢比预先存储的数据完全一样的卡(Nvidia的GTX 770M)。是否有可能改善这种任何建议?纽约推荐阅读?

再次感谢,

罗德里戈。

Ben Tordoff.

嗨,迈克,我对bug报告出现在这里没有问题,因为这意味着其他人也可以看到它们。我能够重现问题使用一个新的MATLAB安装,我有一个修复工作。

作为一个解决方案,你应该能够在命令行中运行gpuBench(只需要输入“gpuBench”)——它只是应用程序启动器坏了。

麦克风

@ben我通过fileexchange向您发送详细信息。我应该在第一个例子中完成。或者可以在Mathworks,删除我的评论,以便我并没有弥补评论和评分线程是什么是错误报道。对于那个很抱歉。

Ben Tordoff.

嗨,迈克。我刚刚尝试在R2013b和R2013a上下载并安装了这个应用程序,没有遇到任何问题。您能准确地描述一下您执行了哪些步骤,以便我尝试诊断问题吗?

麦克风

这在过去一直工作得很好,但在今天下载和运行MATLAB 2013a,我得到了错误

已达到最大递归极限500。使用set(0,'RecursionLimit',N)更改
极限。请注意,超过可用堆栈空间会导致MATLAB和/或崩溃
你的电脑。

gpuBenchApp误差

乔斯马丁

伟大的GPU应用程序,以显示你如何比较GPU给他人。

Firas Sawaf

贾斯汀,我有类似的错误,就像你描述过的一样。我通过将文件复制到不同的文件夹(C:\ GPUBHENH)来修复并从那里运行安装。

贾斯汀

当我试图在R2013a上使用你的应用程序时,我得到了以下错误:

错误使用evalin
未定义函数或变量'GPUBenchApp'。

appinstall.internal.runapp>execute错误(第69行)
OUT = evalin( '呼叫者',[脚本 ';']);

误差在appinstall.internal.runapp> runapp13a(线51)
outobj =执行(完整文件(appinstalldir,[wrapperfile 'App.m']));

错误:appinstall.internal.runapp>runcorrectversion(第35行)
appobj = runapp13a (appinstalldir);

appinstall.internal.runapp错误(第17行)
OUT = RUNCORECTVERSION(APPMETADATA,APPENTRYPOINT,APPINSTALLDIR);

Ben Tordoff.

嗨andrei,

是的,您可以使用工具来实现这一点,尽管它不是那么简单。稍后我会考虑添加一种更方便的方法。

1.删除您正在使用的版本的数据文件(例如data/R2013a。Mat如果使用最新的版本)。
2.捕获和存储你感兴趣的每台机器/GPU的结果:

>> data = gpuBench();
> > gpubench.saveResults(数据);

这将构建一个特定于您的机器和正在使用的MATLAB版本的新数据文件。让我知道如果这对你不工作,或你有建议如何使这更方便。

干杯

安德烈Borissovitch Utkin

如描述所述,GPubench“生成详细的HTML报告,展示了GPU的性能与来自一系列其他GPU的预先存储的性能的比较。”虽然对GPubench非常满意,但我发现应用程序只允许与预定义的其他硬件集进行比较。

Quite a typical situation is that your bosses (or yourself) want to compare machines that the company already has (e.g., to decide what comps to allocate for the development and what for running release versions, or to decide which computers must be enhanced with additional processor units). It would be fine to have an opportunity to run GPUBench in one computer, save the benchmark structure to a file, copy this file to another computer and run the GPUBench on that another computer in such a manner that its data are added to the benchmark structure. Thus the User could compare his/her own computers.

难道这种模式能以某种方式在应用程序的当前版本可以实现?如果没有,可以把它包括在未来的版本?

米尔科

哇,通过应用程序超级思考。聪明地包含自己的计算机和其他GPU。

Narfi

如果遇到CUDA_ERROR_LAUNCH_TIMEOUT,请查看

//www.tatmou.com/gputimeout

它解释了如何更改系统设置以避免这种情况。

戴维。艾伦

嗨本,

谢谢你的代码。

虽然我收到了这个错误。我知道它与超时设置有关,但不知道该从这里做什么。我的Quadro 1000M似乎没有加快我的FFT等。

警告:CUDA执行期间发生意外错误。CUDA的错误是:
CUDA_ERROR_LAUNCH_TIMEOUT。
>在gpuBench 75
警告:CUDA执行期间发生意外错误。CUDA的错误是:
CUDA_ERROR_LAUNCH_TIMEOUT。
>在gpuBench 75
警告:CUDA执行期间发生意外错误。CUDA的错误是:
CUDA_ERROR_LAUNCH_TIMEOUT。
>在gpuBench 75
CUDA执行过程中发生意外错误。CUDA的错误是:
CUDA_ERROR_LAUNCH_TIMEOUT。

误差在C: \程序
files \ matlab \ r2011b \ toolbox \ discomp \ gpu \ + partult \ partult \ + + + gpu \ currentdevicefreemem.p> currentdevicefreemem
(第7行)

误差在parallel.gpu.CUDADevice / get.FreeMemory(线107)
FM = parallel.internal.gpu.currentDeviceFreeMem();

GPUB顺机> GetTestsizes(371行)
freemem = gpu.freememory;

gpuBench>运行时间错误
getTestSizes = getTestSizes(type, safetyFactor, device);

gpuBench错误(第76行)
gpuData = runMTimes(gpuData, rep, 'double', 'GPU', progressTitle, numTasks);

谢谢,
戴夫

Ben Tordoff.

你好特里斯坦,

GPUBench每次只测试一个GPU。因为它只使用当前的设备,你可以使用“gpuDevice(n)”在调用它之前选择第n个GPU。然而,NVIDIA的驱动程序通常会默认先使用功能最强大的卡,所以如果你只得到最慢卡的结果,那就说明问题更严重了。你能试着做一下吗?

> > gpuDeviceCount ()

为了确保所有四个设备都发现了什么?那么你可以尝试

>> for ii=1:gpuDeviceCount(), gpuDevice(ii),结束

打印出的所有卡的细节发现。你需要确保所有的人都有“DeviceSupported”标志设置为1。金宝app

我从来没有见过你报道的特定错误,并期待NVIDIA的论坛,他们说,这很有可能是由硬件问题引起的,一旦你打它,你必须重启充分冲洗内存:

http://forums.nvidia.com/index.php?showtopic=204333.

恐怕这听起来不太好!
让我知道你是怎么办的。

特里斯坦马特尔

我尝试过运行基准测试。我的机器里有3辆特斯拉和1辆quadro。我注意到只有我的第四个GPU在使用。基准指数跌至19%,出现以下错误:
CUDA执行过程中发生意外错误。CUDA错误为:CUDA_ERROR_ECC_UNCORRECTABLE。

误差在C: \程序
files \ matlab \ r2011b \ toolbox \ discomp \ gpu \ + partult \ partult \ + + + gpu \ currentdevicefreemem.p> currentdevicefreemem
(第7行)

误差在parallel.gpu.CUDADevice / get.FreeMemory(线107)
FM = parallel.internal.gpu.currentDeviceFreeMem();

GPUB顺机> GetTestsizes(371行)
freemem = gpu.freememory;

gpuBench>运行时间错误
getTestSizes = getTestSizes(type, safetyFactor, device);

gpuBench错误(第76行)
gpuData = runMTimes(gpuData, rep, 'double', 'GPU', progressTitle, numTasks);

非常感谢您对这个帮助。

托马斯。

GPU的好的基准

MATLAB版本兼容性
创建R2020b
兼容R2016b及后续版本
平台兼容性
窗户 苹果系统 Linux.

社区寻宝

找到Matlab Central中的宝藏,并发现社区如何帮助您!

开始狩猎!