撒尔沙代理
撒尔沙算法是一个模范自由,在网上,在政策强化学习方法。撒尔沙代理是一个基于价值观的强化学习代理列车评论家估计返回或未来的回报。对于一个给定的观察,代理人的行动选择和输出估计收益是最大的。
请注意
撒尔沙代理不支持周期性网络。金宝app
更多信息在不同类型的强化学习代理,看看强化学习代理。
撒尔沙代理可以用下面的训练环境中观察和行动空间。
观察太空 | 行动空间 |
---|---|
连续或离散 | 离散 |
撒尔沙代理使用下面的评论家。
评论家 | 演员 |
---|---|
核反应能量函数评论家问(年代,一个),您将创建使用 |
撒尔沙代理不使用一个演员。 |
在培训期间,代理使用epsilon-greedy探索探索行动空间。在每个间隔控制代理的概率随机选择一个行动ϵ,否则它选择的动作值函数最大的概率为1 -ϵ。
评论家函数近似者
估计价值函数,撒尔沙代理维护一个评论家问(年代,一个;ϕ),这是一个函数的估计值与参数ϕ。评论家需要观察年代和行动一个作为输入,并返回相应的预期的长期回报。
批评人士使用基于表值函数的参数ϕ是实际的问(年代,一个)表中的值。
更多信息为价值创造批评者函数近似,明白了创建政策和价值功能。
在培训期间,代理曲调的参数值ϕ。培训后,参数保持在其调谐值和训练价值函数近似者存储在评论家问(年代,一个)。
代理创建
创建一个撒尔沙代理:
创建一个使用一个评论家
rlQValueFunction
对象。使用一个指定代理选项
rlSARSAAgentOptions
对象。使用一个创建代理
rlSARSAAgent
对象。
训练算法
撒尔沙代理使用下面的训练算法。配置训练算法,使用一个指定选项rlSARSAAgentOptions
对象。
初始化批评问(年代,一个;ϕ与随机参数值)ϕ。
对于每一个训练集:
获得最初的观察年代从环境中。
为当前的观测年代,选择一个随机的行动一个的概率ϵ。否则,选择行动的批评价值函数是最大的。
指定ϵ和它的衰变率,使用
EpsilonGreedyExploration
选择。重复以下事件的每一步直到年代是一种终端状态:
执行动作一个0。观察奖励R其次观察年代。
为当前的观测年代,选择一个随机的行动一个“的概率ϵ。否则,选择行动的批评价值函数是最大的。
如果年代终端状态,设置值目标函数y来R。否则,将它设置为
设置折扣因素γ,可以使用
DiscountFactor
选择。计算的区别ΔQ目标和当前值之间的函数问(年代,一个;ϕ)值。
更新使用学习速率的评论家α。指定学习速率当您创建批评家通过设置
LearnRate
选项rlCriticOptimizerOptions
房地产代理选择对象中。基于表格的批评,更新相应的问(年代,一个)值在表中。
对于所有其他类型的批评,计算梯度Δϕ的损失函数的参数ϕ。然后,基于计算梯度更新参数。在这种情况下,的平方损失函数ΔQ。
设置观察年代来年代。
设置操作一个来一个“。