请参考6.4(撒尔沙:在政策TD控制),强化学习:介绍,RS Sutton AG Barto,麻省理工学院出版社
在这个演示,解决了两种不同的迷宫强化学习技术,撒尔沙。
State-Action-Reward-State-Action(撒尔沙)是一个马尔可夫决策过程算法学习政策,用于强化学习。
撒尔沙,升级操作值功能:
Q (S t {}, {t}): = Q ({t}, {t}) +α* [R {t + 1} +γ∗Q (S t + 1 {}, {t + 1})−Q ({t}, {t}))
学习速率(α)
学习速率决定在多大程度上新获得的信息将覆盖旧的信息。0倍将代理没有学到任何东西,而1会使代理的因素只考虑最近的信息。
贴现因子(γ)
折现系数决定了未来回报的重要性。0倍将代理“投机取巧”,只考虑当前的奖励,而因子接近1会争取一个长期的高回报。如果折现系数满足或超过1,Q值可能分道扬镳。
注:收敛测试特定的例子,一般收敛是上面演示的不确定。
引用作为
Bhartendu (2023)。撒尔沙强化学习(//www.tatmou.com/matlabcentral/fileexchange/63089-sarsa-reinforcement-learning), MATLAB中央文件交换。检索。
版本 | 发表 | 发布说明 | |
---|---|---|---|
1.0.0.0 |