SARSA强化学习

版本1.0.0.0(117 KB) por Bhartendu
使用SARSA解决迷宫,强化学习

1.4 k descargas

Actualizado2017年5月24日

版本licencia

参考6.4 (Sarsa: On-Policy TD Control),强化学习:介绍,RS Sutton, AG Barto, MIT出版社
在这个演示中,用强化学习技术SARSA解决了两个不同的迷宫。
状态-行动-奖励-状态-行动(SARSA)是一种学习马尔可夫决策过程策略的算法,用于强化学习。
SARSA,动作-价值函数更新:

Q (S t {}, {t}): = Q ({t}, {t}) +α* [R {t + 1} +γ∗Q (S t + 1 {}, {t + 1})−Q ({t}, {t}))

学习率(α)
学习率决定了新获取的信息覆盖旧信息的程度。因子0将使代理不学习任何东西,而因子1将使代理只考虑最近的信息。

折现因子(γ)
折扣因素决定了未来奖励的重要性。因子为0将使智能体“机会主义”,只考虑当前的奖励,而因子接近1将使其争取长期的高奖励。如果贴现因子达到或超过1,Q值可能会发散。

注意:收敛性是在特定的例子上测试的,在一般情况下,上述演示的收敛性是不确定的。

Citar科莫

Bhartendu(2022)。SARSA强化学习(//www.tatmou.com/matlabcentral/fileexchange/63089-sarsa-reinforcement-learning), MATLAB中央文件交换。Recuperado

兼容性con la versión de MATLAB
Se creó con R2016a
兼容con cualquier versión
兼容平台
窗户 macOS Linux

社区寻宝

在MATLAB Central中找到宝藏,并发现社区如何帮助您!

开始狩猎!
版本 Publicado Notas de la versión
1.0.0.0