主要内容

撒尔沙代理

撒尔沙算法是一个模范自由,在网上,在政策强化学习方法。撒尔沙代理是一个基于价值观的强化学习代理列车评论家估计返回或未来的回报。对于一个给定的观察,代理人的行动选择和输出估计收益是最大的。

请注意

撒尔沙代理不支持周期性网络。金宝app

更多信息在不同类型的强化学习代理,看看强化学习代理

撒尔沙代理可以用下面的训练环境中观察和行动空间。

观察太空 行动空间
连续或离散 离散

撒尔沙代理使用下面的评论家。

评论家 演员

核反应能量函数评论家(年代,一个),您将创建使用rlQValueFunctionrlVectorQValueFunction

撒尔沙代理不使用一个演员。

在培训期间,代理使用epsilon-greedy探索探索行动空间。在每个间隔控制代理的概率随机选择一个行动ϵ,否则它选择的动作值函数最大的概率为1 -ϵ

评论家函数近似者

估计价值函数,撒尔沙代理维护一个评论家(年代,一个;ϕ),这是一个函数的估计值与参数ϕ。评论家需要观察年代和行动一个作为输入,并返回相应的预期的长期回报。

批评人士使用基于表值函数的参数ϕ是实际的(年代,一个)表中的值。

更多信息为价值创造批评者函数近似,明白了创建政策和价值功能

在培训期间,代理曲调的参数值ϕ。培训后,参数保持在其调谐值和训练价值函数近似者存储在评论家(年代,一个)。

代理创建

创建一个撒尔沙代理:

  1. 创建一个使用一个评论家rlQValueFunction对象。

  2. 使用一个指定代理选项rlSARSAAgentOptions对象。

  3. 使用一个创建代理rlSARSAAgent对象。

训练算法

撒尔沙代理使用下面的训练算法。配置训练算法,使用一个指定选项rlSARSAAgentOptions对象。

  • 初始化批评(年代,一个;ϕ与随机参数值)ϕ

  • 对于每一个训练集:

    1. 获得最初的观察年代从环境中。

    2. 为当前的观测年代,选择一个随机的行动一个的概率ϵ。否则,选择行动的批评价值函数是最大的。

      一个 = 参数 马克斯 一个 ( 年代 , 一个 ; ϕ )

      指定ϵ和它的衰变率,使用EpsilonGreedyExploration选择。

    3. 重复以下事件的每一步直到年代是一种终端状态:

      1. 执行动作一个0。观察奖励R其次观察年代

      2. 为当前的观测年代,选择一个随机的行动一个“的概率ϵ。否则,选择行动的批评价值函数是最大的。

        一个 = 参数 马克斯 一个 ( 年代 , 一个 ; ϕ )

      3. 如果年代终端状态,设置值目标函数yR。否则,将它设置为

        y = R + γ ( 年代 , 一个 ; ϕ )

        设置折扣因素γ,可以使用DiscountFactor选择。

      4. 计算的区别ΔQ目标和当前值之间的函数(年代,一个;ϕ)值。

        Δ = y ( 年代 , 一个 ; ϕ )

      5. 更新使用学习速率的评论家α。指定学习速率当您创建批评家通过设置LearnRate选项rlCriticOptimizerOptions房地产代理选择对象中。

        • 基于表格的批评,更新相应的(年代,一个)值在表中。

          ( 年代 , 一个 ) = ( 年代 , 一个 ; ϕ ) + α Δ

        • 对于所有其他类型的批评,计算梯度Δϕ的损失函数的参数ϕ。然后,基于计算梯度更新参数。在这种情况下,的平方损失函数ΔQ

          Δ ϕ = 1 2 ϕ ( Δ ) 2 ϕ = ϕ + α Δ ϕ

      6. 设置观察年代年代

      7. 设置操作一个一个“

另请参阅

对象

相关的例子

更多关于