MATLAB的答案

Testsoftware

强化学习工具箱——Intialise经验缓冲区

14 Ansichten(30天)的

Altere Kommentare anzeigen

恩里科密欧我9梅2019

1
Verknupfen

这位Frage祖茂堂Direkter链接

https://de.mathworks.com/matlabcentral/answers/461100-reinforcement-learning-toolbox-intialise-experience-buffer

Kommentiert: h . M。我27 Okt。2022

Akzeptierte Antwort: Emmanouil Tzorakoleftherakis

我必须说我印象深刻的强化学习MATLAB工具箱,推出了2019年一个版本。它极大地简化了开发的强化学习算法用于控制目的。然而,我遇到了困难在算法处理复杂的问题。

我模仿我的系统的动力学模型。金宝app目前,S-functions不为报酬的计算工作和结束条件由于代数循环,这是烦人的。不过,我已经能够绕过,用仿真软件模块。金宝app不过,我最大的问题是,我不能初始化(甚至访问)的经验缓冲属性DDPG代理。

我造型系统是车辆试图执行一个特定的复杂策略三个自由度。策略很好理解,我有PID等控制算法的基准和NMPC。目前,DDPG代理正在努力学习(即不收敛)尽管我玩网络的大小,噪音选项和奖赏函数。我担心这是由于搜索空间的大小(连续7个州和两个连续的动作)。我也使用一个随机重置函数去探索不同的起点。我的意图是使用我可以收集的数据来自多个PID和NMPC模拟初始化的经验。尽管噪音,设备将仍然探索国家action-spaces,它至少能体验越高奖励早些时候在勘探过程中,因此希望提高学习。

任何想法,如果经验缓冲区可能会修改或初始化?目前,我担心这是一个受保护的属性。这个可以看下realese除了学徒学习吗?

提前感谢你的帮助!同样的,如果你有其他建议,将不胜感激!

1 Kommentar
Keine anzeigenKeine ausblenden

Rajesh Siraskar 1丢。2019

亲爱的恩里科

> >“我必须说我印象深刻的强化学习MATLAB工具箱,推出了2019年一个版本”

我同意 !

Melden您西奇,嗯祖茂堂kommentieren。

Melden您西奇一个,嗯这Frage祖茂堂beantworten。

Akzeptierte Antwort

Emmanouil Tzorakoleftherakis 2019年是11日麦

4
Verknupfen

这位Antwort祖茂堂Direkter链接

https://de.mathworks.com/matlabcentral/answers/461100-reinforcement-learning-toolbox-intialise-experience-buffer answer_374527

嗨,恩里科,

高兴地看到,强化学习工具箱是有益的。关于你的评论关于代数循环,你试过一些方法在以下链接打破循环?

//www.tatmou.com/matlabcentral/answers/345895-why-does-putting-a-s-function-inside-an-enabled-subsystem-cause-an-algebraic-loop

//www.tatmou.com/matlabcentral/answers/92839-why-does-converting-my-subsystem-to-an-s-function-with-real-time-workshop-introduce-an-algebraic-loo

https://blogs.mathworks.com/金宝appsimulink/2015/07/18/why-you-should-never-break-an-algebraic-loop-with-with-a-memory-block/

//www.tatmou.com/matlabcentral/answers/95310-what-are-algebraic-loops-in-金宝appsimulink-and-how-do-i-solve-them

关于DDPG, 这文档页面,提到

“病人DDPG和DQN代理,因为他们可能不会学到任何东西在一段时间内发作,早期,他们通常显示蘸累积奖励在训练过程的早期。最终,他们可以展示学习第一个几千集后的迹象。”

你可以看到这例如步行机器人的例子在这里 ,> 1000集取得重大进展。同时,相同的示例中的政策需要在29日观测和输出6连续行动,所以大搜索空间可能是一个原因你没有看到改善,但我认为还有更多。一些建议:

1)尝试使用双曲正切层映射层1和1,然后输入你的演员使用的最后一层“scalingLayer”范围内的一切所需的范围(见演员在上面的示例中)。

2)动作范围越大越长/它将学习连续的方法。尽量限制这个范围绝对必要的值。

3)如果这个范围仍大,另一个选择将从观察学习δu(而不是绝对的值)。du本质上是小范围,这样可以帮助限制搜索空间。

4)确保勘探方差DDPG选择与你的动作范围(不是大虽然否则你不会学到任何东西)。

5)奖励设计合理的第一种方法是使用货币政策委员会成本作为起点,或者错误的PID。

使用知识的概念从传统的控制器初始化政策是非常合理的。(我认为)不可能在19日初始化体验缓冲区(除非你是培训现有的代理和拯救了经验缓冲区),一些替代方案可能是:

1)创建一个数据集从许多模拟使用传统PID / MPC与监督学习和训练演员网络行为作为一个控制器。

2)监督学习,而是MPC / PID控制器在循环训练,和形状你的奖励是基于传统的控制器和RL代理之间的误差。

然后您可以使用这个网络作为初始值进一步训练和强化学习。我希望这可以帮助。

2 Kommentare
1 alteren Kommentar anzeigen1 alteren Kommentar ausblenden

h . M。我27 Okt。2022

@Emmanouil Tzorakoleftherakis

你能解释一下点不。3如果可能的话。

谢谢

Melden您西奇,嗯祖茂堂kommentieren。

Weitere Antworten (0)

Melden您西奇一个,嗯这Frage祖茂堂beantworten。

Kategorien

人工智能,数据科学和统计数据深度学习工具箱应用程序自主和控制系统强化学习

找到更多的在强化学习在帮助中心和文件交换

标签

Produkte

强化学习工具箱

版本

R2019a

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!

翻译的

Testsoftware