撒尔沙算法是一个模范自由,在网上,在政策强化学习方法。撒尔沙代理是一个基于价值观的强化学习代理列车评论家估计返回或未来的回报。
更多信息在不同类型的强化学习代理,看看强化学习代理。
撒尔沙代理可以用下面的训练环境中观察和行动空间。
观察太空 | 行动空间 |
---|---|
连续或离散 | 离散 |
撒尔沙代理使用下面的评论家表示。
评论家 | 演员 |
---|---|
核反应能量函数评论家问(,)创建使用 |
撒尔沙代理不使用一个演员。 |
在培训期间,代理使用epsilon-greedy探索探索行动空间。在每个控制区间,代理的概率随机选择一个行动ϵ或选择一个行动贪婪地对值函数与概率1 -ϵ。这个贪婪的行动的行动值函数是最大的。
估计价值函数,撒尔沙代理维护一个评论家问(年代,一个),这是一个表或函数估计值。评论家需要观察年代和行动一个作为输入,并返回相应的预期的长期回报。
更多信息为价值创造批评者函数近似,明白了创建政策和价值函数表示。
当完成训练,训练有素的价值函数近似者存储在评论家问(年代,一个)。
创建一个撒尔沙代理:
创建一个使用一个评论家rlQValueRepresentation
对象。
使用一个指定代理选项rlSARSAAgentOptions
对象。
使用一个创建代理rlSARSAAgent
对象。
撒尔沙代理使用下面的训练算法。配置训练算法,使用一个指定选项rlSARSAAgentOptions
对象。
初始化批评问(年代,一个与随机值)。
对于每一个训练集:
设置初始观察年代。
为当前的观测年代,选择一个随机的行动一个的概率ϵ。否则,选择行动的批评价值函数是最大的。
指定ϵ和它的衰变率,使用EpsilonGreedyExploration
选择。
重复以下事件的每一步直到年代是一种终端状态:
执行动作一个。观察奖励R其次观察年代。
选择一个行动一个“按照国家的政策年代。
如果年代终端状态,设置值目标函数y来R。否则,将它设置为
设置折扣因素γ,可以使用DiscountFactor
选择。
计算出评论家参数更新。
更新使用学习速率的评论家α。
指定学习速率通过设置当您创建了评论家表示LearnRate
选项rlRepresentationOptions
对象。
设置观察年代来年代。
设置操作一个来一个“。
rlSARSAAgent
|rlSARSAAgentOptions