SARSA强化学习-文件交换- MATLAB中心 - 金宝app,下载188bet金宝搏,金宝搏官方网站

撒尔沙强化学习

version 1.0.0.0 (117kb) by Bhartendu

使用SARSA，强化学习解决迷宫

5．0

(5）

1.2 k下载

更新2017年5月24日

查看许可协议

参见6.4 (Sarsa: On-Policy TD Control)，《强化学习:简介》，RS Sutton, AG Barto, MIT出版社
在这个演示中，两个不同的迷宫被强化学习技术解决了，SARSA。
状态-行动-奖励-状态-行动(SARSA)是一种学习马尔可夫决策过程策略的算法，用于强化学习。
SARSA，行动价值功能的更新:

Q (S t {}, {t}): = Q ({t}, {t}) +α* [R {t + 1} +γ∗Q (S t + 1 {}, {t + 1})−Q ({t}, {t}))

学习速率(α)
学习率决定了新获取的信息对旧信息的覆盖程度。因子为0会使agent不学习任何东西，而因子为1会使agent只考虑最近的信息。

贴现因子(γ)
贴现因素决定了未来回报的重要性。当因子为0时，agent只考虑当前的奖励就会成为“机会主义者”，而当因子接近1时，agent就会追求长期的高回报。如果折扣因子满足或超过1,Q值可能会发散。

注:收敛性是在特定的例子上测试的，一般收敛性是不确定的。

引用作为

Bhartendu(2021)。撒尔沙强化学习(//www.tatmou.com/matlabcentral/fileexchange/63089-sarsa-reinforcement-learning)， MATLAB中央文件交换。检索2021年8月21日．

MATLAB版本兼容性

创建R2016a

与任何版本兼容

平台的兼容性

窗户 macOS Linux

类别

MATLAB>数学>图与网络算法>最短路径>迷宫问题>

标签添加标签

社区寻宝

在MATLAB中心找到宝藏，并发现社区如何可以帮助你!

开始狩猎!