DDPG代理不收敛,如何改善?

47 Ansichten(30天)的
Naveed Nekoo
Naveed Nekoo 我2022年4月1
我有一个自定义仿真软件环境和实现金宝appDDPG代理。我只是试图让一个四轴飞行器水平z = 5,行动是总推力。我使用一个指数回报函数峰值在2当z = 5,和变得平缓0了远离5。我在一个随机重置功能地方四轴飞行器z高度0和10之间。看培训奖励和q0趋势后,我可以看到代理学习,有时几乎达到最大的奖励,但我不能让它收敛。这是我的训练结果图,每集最大的奖励是800:
演员评论家网络和选择:
我想知道:
1)为什么代理执行相当好500集左右,但只有后变得更糟吗?我的学习速率太低了吗?
模型2)附近一集1250,为什么突然下降到非常低的奖励而q0值开始增加吗?我只是没有足够的情节吗?
3)为什么会有如此多的回报之间波动,尤其是在后来的情节?似乎几乎一集,它将得到800,然后接下来它将降至0。
4)奖励函数设计使得它几乎不可能四800年达到最大的回报,除非随机初始高度在5是正确的。即使代理执行效果最佳,奖励将descrease随着起始位置远离5。这惹训练过程吗?我应该重新设计奖励功能,以便初始位置不影响整体奖励?
看培训的阴谋,如果有人建议参数调优,帮助收敛和性能请让我知道。我探索一些我自己的,但是培训需要很多时间我希望外面的意见。
1 Kommentar
无人机和空间系统
你好,
对于第一个问题,我认为这是与你的回报函数和L2正规化,实际上可能。
对于第二个问题,代理是寻找最好的策略获得最大回报的价值,这样的算法是尝试不同的状态和行动。q0是一个指标,在培训结束时,收敛相同的值与awerage奖励所需的条件。
对于第三个问题,我可以说,你应该分享你的模型和网络算法,工程,更多明确的建议,第一,第二和第三问题相互依赖。
最后一个问题,随机初始条件帮助我们更有效地培训代理(过度学习等),减少过度拟合初始条件是随机的,和算法,不同的声音可以被添加到实现这一点。
如果你能分享你的模型中,或许可以给出更明确的建议。

Melden您西奇,嗯祖茂堂kommentieren。

Antworten (0)

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!

翻译的