撒尔沙强化学习

迷宫求解使用撒尔沙,强化学习

1.5 k下载

更新2017年5月24日结婚04:59:13 + 0000

查看许可协议

请参考6.4(撒尔沙:在政策TD控制),强化学习:介绍,RS Sutton AG Barto,麻省理工学院出版社
在这个演示,解决了两种不同的迷宫强化学习技术,撒尔沙。
State-Action-Reward-State-Action(撒尔沙)是一个马尔可夫决策过程算法学习政策,用于强化学习。
撒尔沙,升级操作值功能:

Q (S t {}, {t}): = Q ({t}, {t}) +α* [R {t + 1} +γ∗Q (S t + 1 {}, {t + 1})−Q ({t}, {t}))

学习速率(α)
学习速率决定在多大程度上新获得的信息将覆盖旧的信息。0倍将代理没有学到任何东西,而1会使代理的因素只考虑最近的信息。

贴现因子(γ)
折现系数决定了未来回报的重要性。0倍将代理“投机取巧”,只考虑当前的奖励,而因子接近1会争取一个长期的高回报。如果折现系数满足或超过1,Q值可能分道扬镳。

注:收敛测试特定的例子,一般收敛是上面演示的不确定。

引用作为

Bhartendu (2023)。撒尔沙强化学习(//www.tatmou.com/matlabcentral/fileexchange/63089-sarsa-reinforcement-learning), MATLAB中央文件交换。检索

MATLAB版本兼容性
创建R2016a
兼容任何释放
平台的兼容性
窗户 macOS Linux

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!
版本 发表 发布说明
1.0.0.0