强化学习工具箱——Intialise经验缓冲区

14 Ansichten(30天)的
我必须说我印象深刻的强化学习MATLAB工具箱,推出了2019年一个版本。它极大地简化了开发的强化学习算法用于控制目的。然而,我遇到了困难在算法处理复杂的问题。
我模仿我的系统的动力学模型。金宝app目前,S-functions不为报酬的计算工作和结束条件由于代数循环,这是烦人的。不过,我已经能够绕过,用仿真软件模块。金宝app不过,我最大的问题是,我不能初始化(甚至访问)的经验缓冲属性DDPG代理。
我造型系统是车辆试图执行一个特定的复杂策略三个自由度。策略很好理解,我有PID等控制算法的基准和NMPC。目前,DDPG代理正在努力学习(即不收敛)尽管我玩网络的大小,噪音选项和奖赏函数。我担心这是由于搜索空间的大小(连续7个州和两个连续的动作)。我也使用一个随机重置函数去探索不同的起点。我的意图是使用我可以收集的数据来自多个PID和NMPC模拟初始化的经验。尽管噪音,设备将仍然探索国家action-spaces,它至少能体验越高奖励早些时候在勘探过程中,因此希望提高学习。
任何想法,如果经验缓冲区可能会修改或初始化?目前,我担心这是一个受保护的属性。这个可以看下realese除了学徒学习吗?
提前感谢你的帮助!同样的,如果你有其他建议,将不胜感激!
1 Kommentar
Rajesh Siraskar
Rajesh Siraskar 1丢。2019
亲爱的恩里科
> >“我必须说我印象深刻的强化学习MATLAB工具箱,推出了2019年一个版本”
我同意 !

Melden您西奇,嗯祖茂堂kommentieren。

Akzeptierte Antwort

Emmanouil Tzorakoleftherakis
Emmanouil Tzorakoleftherakis 2019年是11日麦
嗨,恩里科,
高兴地看到,强化学习工具箱是有益的。关于你的评论关于代数循环,你试过一些方法在以下链接打破循环?
关于DDPG, 文档页面,提到
“病人DDPG和DQN代理,因为他们可能不会学到任何东西在一段时间内发作,早期,他们通常显示蘸累积奖励在训练过程的早期。最终,他们可以展示学习第一个几千集后的迹象。”
你可以看到这例如步行机器人的例子 在这里 ,> 1000集取得重大进展。同时,相同的示例中的政策需要在29日观测和输出6连续行动,所以大搜索空间可能是一个原因你没有看到改善,但我认为还有更多。一些建议:
1)尝试使用双曲正切层映射层1和1,然后输入你的演员使用的最后一层“scalingLayer”范围内的一切所需的范围(见演员在上面的示例中)。
2)动作范围越大越长/它将学习连续的方法。尽量限制这个范围绝对必要的值。
3)如果这个范围仍大,另一个选择将从观察学习δu(而不是绝对的值)。du本质上是小范围,这样可以帮助限制搜索空间。
4)确保勘探方差DDPG选择与你的动作范围(不是大虽然否则你不会学到任何东西)。
5)奖励设计合理的第一种方法是使用货币政策委员会成本作为起点,或者错误的PID。
使用知识的概念从传统的控制器初始化政策是非常合理的。(我认为)不可能在19日初始化体验缓冲区(除非你是培训现有的代理和拯救了经验缓冲区),一些替代方案可能是:
1)创建一个数据集从许多模拟使用传统PID / MPC与监督学习和训练演员网络行为作为一个控制器。
2)监督学习,而是MPC / PID控制器在循环训练,和形状你的奖励是基于传统的控制器和RL代理之间的误差。
然后您可以使用这个网络作为初始值进一步训练和强化学习。我希望这可以帮助。
2 Kommentare
h . M。
h . M。 我27 Okt。2022
你能解释一下点不。3如果可能的话。
谢谢

Melden您西奇,嗯祖茂堂kommentieren。

Weitere Antworten (0)

Produkte


版本

R2019a

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!

翻译的