似乎与trainNetwork GPU内存不足问题。

26日视图(30天)

显示旧的评论

麦斯 2023年5月3日

0
链接

这个问题直接联系

//www.tatmou.com/matlabcentral/answers/1957529-gpu-out-of-memory-issue-appears-with-trainnetwork

评论道: 麦斯2023年5月15日21

答:接受马特·J

我有一个特斯拉P100 16 GB的RAM。昨天,我跑trainNetwork()与不同层achitectures和一些不同的输入数据。它工作。然后我试着一个更大的输入数据集,但得到的内存错误:

错误使用trainNetwork

GPU内存不足。尝试减少MiniBatchSize使用trainingOptions函数。

错误A1_B1_C1a_D2(第152行)

[净,netinfo] = trainNetwork (trainInput、trainTarget层,选择);

引起的:

错误使用gpuArray / hTimesTranspose

内存设备。查看更多细节在GPU可用内存,使用“gpuDevice ()”。如果问题仍然存在,重置GPU通过调用“gpuDevice (1)”。

我试着做建议,但它没有帮助。我曾经尝试过很多不同的较低的方法,做了重新启动,我甚至已经回到了脚本,用于正常工作。

现在没有工作。

任何建议排除硬件故障或保护状态?

0评论
显示1年长的评论藏1年长的评论

登录置评。

在回答这个问题。

接受的答案

马特·J 2023年5月3日

0
链接

直接链接到这个答案

//www.tatmou.com/matlabcentral/answers/1957529-gpu-out-of-memory-issue-appears-with-trainnetwork answer_1228659

编辑:马特·J 2023年5月3日

然后我试着一个更大的输入数据集,但得到的内存错误:

如果你让你的数据越来越大,最终会耗尽内存。也许减少MiniBatchSize设置。

13个评论
显示12以上的评论藏12个年长的评论

麦斯 2023年5月4日

你好神。谢谢。这是我很难给这些细节。gpuDevice返回后在内存中全容量错误……结果到空闲状态。

我能够重新运行/火车一个更老的数据集。gpu的输入数据是1.6820 e + 10个字节,

TotalMemory: 17071734784 (17.07 GB)

AvailableMemory: 16340589072 (16.34 GB)

如果它不是“可用内存”,设置限制然后我不知道这意味着什么。但就像我说的我与更高的记忆训练的网络负载,甚至高于极限。所以我猜是可能的(某种程度上),让matlab分开它只发送块gpu而不是整个训练和验证数据数组……?但是因为我只是增加了数组的大小,直到我得到了内存错误,没有其他优化参数我感觉失去了什么是错的。

麦斯 2023年5月11日

如前所述,我设法跑。做了两个培训与大型数据集一分为二保持较低的内存。

然后我把训练有素的净转移到另一个。为了训练少,但outputside略大的情况下。

这没有工作。我在搜索扩展新的数据集到一个荒谬的低量,minibatch 10 ~ 300 MB,和使用。

数组大小是:验证…

s1 =

64 64 100

s2 =

100 10256

和火车……

s3 =

64 64 800

s4 =

800 10256

TotSize =

302342400

但错误是一样的:

错误使用trainNetwork(第184行)

GPU内存不足。尝试减少MiniBatchSize使用trainingOptions函数。

错误A1_B1_C1d_D1(第97行)

[净,netinfo] = trainNetwork (trainInput、trainTarget层,选择);

引起的:

错误使用gpuArray / hTimesTranspose

内存设备。查看更多细节在GPU可用内存,使用

“gpuDevice ()”。如果问题仍然存在,重置GPU通过调用“gpuDevice (1)”。

显然,错误的说明是错误的。但什么是错了吗?

麦斯 2023年5月12日

这是我运行的脚本…或者想要运行:

temp =负载( “…一些以前的净....垫的 );

%这加载我的培训和验证数据

[trainInput, trainTarget] = LoadInputTargetFiles (Folder_C_input_DL [1], “火车” );

[validateInput, validateTarget] = LoadInputTargetFiles (Folder_C_input_DL [1], “验证” );

元= 641;

transferLayers = temp.net.Layers (1:6);

层= [

transferLayers

reluLayer

fullyConnectedLayer (Nt * 2 * 8)

reluLayer

fullyConnectedLayer (Nt * 2 * 8)

clipLayer (1, “myclip” )

regressionLayer

];

层(8)。WeightLearnRateFactor = 10; %的提示从视频

层(8)。WeightL2Factor = 1;

层(8)。BiasLearnRateFactor = 20;

层(8)。BiasL2Factor = 1;

选择= trainingOptions ( …

“个” , …

“MaxEpochs” ,1000, …

“InitialLearnRate” ,0.006, …

“动量” ,0.95, …

“洗牌” , “every-epoch” , …

“ValidationData” {validateInput, validateTarget}, …

“ValidationPatience” 正, …

“ValidationFrequency” ,500, …

“L2Regularization” 1的军医, …

“阴谋” , “训练进步” , …

“CheckPointPath” Folder_D_run_DL_checkpoints, …

“ExecutionEnvironment” , “图形” , “MiniBatchSize” 10);

gpu = gpuDevice ();

重置(gpu);

gpu = gpuDevice ();

disp (gpu)

s1 =大小(validateInput)

s2 =大小(validateTarget)

s3 =大小(trainInput)

s4 =大小(trainTarget)

TotSize = prod (s1) +刺激(s2) +刺激(s3) +刺激(s4);TotSize = TotSize * 4 % 4,因为它是类型单一

[净,netinfo] = trainNetwork (trainInput、trainTarget层,选择);

麦斯 2023年5月15日21

哦……对吧……我没有占总可学的,整个俱乐部。通过插入conv层之前,我设法运行它。

皮尤……

谢谢

登录置评。

类别

人工智能,数据科学和统计数据深度学习工具箱并行计算和云

找到更多的在并行计算和云在帮助中心和文件交换

下载188bet金宝搏

深度学习工具箱

释放

R2023a

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!