MATLAB的答案

Testsoftware

DDPG代理不收敛,如何改善?

47 Ansichten(30天)的

Altere Kommentare anzeigen

Naveed Nekoo 我2022年4月1

0
Verknupfen

这位Frage祖茂堂Direkter链接

https://de.mathworks.com/matlabcentral/answers/1686044-ddpg-agent-not-converging-how-to-improve

Kommentiert: 无人机和空间系统我麦2022

我有一个自定义仿真软件环境和实现金宝appDDPG代理。我只是试图让一个四轴飞行器水平z = 5,行动是总推力。我使用一个指数回报函数峰值在2当z = 5,和变得平缓0了远离5。我在一个随机重置功能地方四轴飞行器z高度0和10之间。看培训奖励和q0趋势后,我可以看到代理学习,有时几乎达到最大的奖励,但我不能让它收敛。这是我的训练结果图,每集最大的奖励是800:

演员评论家网络和选择:

我想知道:

1)为什么代理执行相当好500集左右,但只有后变得更糟吗?我的学习速率太低了吗?

模型2)附近一集1250,为什么突然下降到非常低的奖励而q0值开始增加吗?我只是没有足够的情节吗?

3)为什么会有如此多的回报之间波动,尤其是在后来的情节?似乎几乎一集,它将得到800,然后接下来它将降至0。

4)奖励函数设计使得它几乎不可能四800年达到最大的回报,除非随机初始高度在5是正确的。即使代理执行效果最佳,奖励将descrease随着起始位置远离5。这惹训练过程吗?我应该重新设计奖励功能,以便初始位置不影响整体奖励?

看培训的阴谋,如果有人建议参数调优,帮助收敛和性能请让我知道。我探索一些我自己的,但是培训需要很多时间我希望外面的意见。

1 Kommentar
Keine anzeigenKeine ausblenden

无人机和空间系统我麦2022

你好,

对于第一个问题,我认为这是与你的回报函数和L2正规化,实际上可能。

对于第二个问题,代理是寻找最好的策略获得最大回报的价值,这样的算法是尝试不同的状态和行动。q0是一个指标,在培训结束时,收敛相同的值与awerage奖励所需的条件。

对于第三个问题,我可以说,你应该分享你的模型和网络算法,工程,更多明确的建议,第一,第二和第三问题相互依赖。

最后一个问题,随机初始条件帮助我们更有效地培训代理(过度学习等),减少过度拟合初始条件是随机的,和算法,不同的声音可以被添加到实现这一点。

如果你能分享你的模型中,或许可以给出更明确的建议。

Melden您西奇,嗯祖茂堂kommentieren。

Melden您西奇一个,嗯这Frage祖茂堂beantworten。

Antworten (0)

Melden您西奇一个,嗯这Frage祖茂堂beantworten。

Kategorien

人工智能,数据科学和统计数据深度学习工具箱应用程序自主和控制系统强化学习

找到更多的在强化学习在帮助中心和文件交换

标签

Produkte

版本

R2022a

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!

翻译的

Testsoftware