主要内容

萨拉代表

Sarsa算法是一种无模型,在线,策略的on-prodote加强学习方法。Sarsa代理是一家基于价值的强化学习代理,培训了批评批评,以估计回报或未来奖励。

有关不同类型的强化学习代理商的更多信息,请参阅加固学习代理人

Sarsa代理商可以在具有以下观察和行动空间的环境中培训。

观察空间 行动空间
连续或离散 离散的

Sarsa代理商使用以下批评代表。

评论家 演员

Q值功能评论家问:S.一种),您创建使用rlqvalueerepresentation

Sarsa代理商不使用演员。

在培训期间,代理商使用epsilon-贪婪的探索来探讨动作空间。在每个控制间隔期间,代理要么具有概率的随机动作ε.或者在具有概率1-的值函数贪婪地选择一个动作 -ε.。这种贪婪的行动是价值函数最大的动作。

批评功能

估计价值函数,萨拉代理人维持评论家问:S.一种),这是一个表或函数近似剂。评论家采取观察S.和行动一种作为输入并返回相应的长期奖励期望。

有关创建值函数近似的批评者的更多信息,请参阅创建策略和值函数表示

培训完成后,培训的值函数近似器存储在评论家中问:S.一种)。

代理创作

创建萨拉代表:

  1. 使用一个批评评论家rlqvalueerepresentation目的。

  2. 使用一个指定代理选项rlsarsaagentoptions.目的。

  3. 使用一个创建代理rlsarsaagent.目的。

培训算法

Sarsa代理使用以下培训算法。要配置培训算法,请使用arlsarsaagentoptions.目的。

  • 初始化评论家问:S.一种)随机值。

  • 对于每次训练集:

    1. 设置初始观察S.

    2. 目前的观察S.,选择一个随机动作一种有概率ε.。否则,选择批评值函数最大的操作。

      一种 = arg 最大限度 一种 问: S. 一种

      指定ε.及其衰减率,使用epsilongredyexpliation.选项。

    3. 对集发集的每个步骤重复以下内容S.是终端状态:

      1. 执行动作一种。遵守奖励R.和下一次观察S'

      2. 选择一个动作一种'通过遵循国家的政策S'

        一种 ' = 最大限度 一种 ' 问: S. ' 一种 '

      3. 如果S'是终端状态,设置值函数目标yR.。否则,将它设置为

        y = R. + γ. 问: S. ' 一种 '

        设置折扣因素γ., 使用贴纸物选项。

      4. 计算批评批评参数更新。

        δ. 问: = y - 问: S. 一种

      5. 使用学习率更新评论家α.

        问: S. 一种 = 问: S. 一种 + α. * δ. 问:

        通过设置创建批评批评表示时,请指定学习率学习选项在rlrepresentationOptions.目的。

      6. 设置观察S.S'

      7. 设置动作一种一种'

也可以看看

|

相关的话题