一块加固剂有什么原因没有执行结束命令停止标准何时见面?

9的观点(30天)
目前我正在RL -代理表示“状态”的函数作为无人机位置/客户的控制器。但这个问题,请等待我在训练,每个迭代的停止标准不执行。RL块累西腓命令(结束),停止状态acheaved(离开界外或烙在任何轴)但继续训练迭代直到满足执行时间限制。有什么原因Rl块不会停止迭代即使停止状态见面?
更多解释这是一幅从一个迭代acheaving停止状态但仿真继续执行导致不合理的奖励数量。
上奖励,下停止标准
(顶部图结束而哭泣时间奖励功能,底部图随时间停止标准)
停止标准我使用相同的迭代:
如果需要任何进一步的解释或数据我乐意提前提供,谢谢。

答案(1)

菲利普昏暗的
菲利普昏暗的 2021年9月8日
在这个问题上好的更新/解决方案。目前(2021年版)强化学习设计师不是功能corectly时执行costom env。ResetFcn和回采仿真停止sim(结束)criterum时实现。唯一的办法就可以正确地得到这个功能脂肪酸是真的老脚本方法(模拟的例子: openExample (rl / SimscapeCartpoleDDPGExample) )。
希望这可以帮助到一些人打交道些微相同的问题。
1评论
GCats
GCats 2022年11月8日
嗨,菲利普,我遇到和你同样的问题。你到底是怎么解决这个问题?你的意思是“旧脚本方法”?谢谢!

登录置评。

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!