主要内容

深度确定性策略梯度(DDPG)代理

深度确定性策略梯度(DDPG)算法是一种无模型、在线、非策略强化学习方法。DDPG代理是一种行动者-评论家的强化学习代理,它搜索一种最优策略,使预期的累积长期奖励最大化。

有关不同类型的强化学习代理的更多信息,请参见强化学习代理

DDPG代理可以在具有以下观察和行动空间的环境中进行训练。

观察太空 行动空间
连续或离散 连续

DDPG代理使用以下演员和评论家。

评论家 演员

q值函数评论家年代一个),您可以使用它来创建rlQValueFunction

确定性策略行动者π年代),您可以使用它来创建rlContinuousDeterministicActor

培训期间,DDPG代理:

  • 在学习过程中的每个时间步骤更新参与者和评论家属性。

  • 使用循环经验缓冲区存储过去的经验。代理使用从缓冲区中随机抽样的一小批经验来更新演员和评论家。

  • 在每个训练步骤中使用随机噪声模型扰动策略选择的动作。

演员和评论家的功能

为了估计策略函数和值函数,DDPG代理维护四个函数逼近器:

  • 演员π年代θ-参与者,带参数θ,进行观察年代并返回相应的行动,使长期奖励最大化。

  • 目标的演员πt年代θt) -为了提高优化的稳定性,agent定期更新目标actor参数θt使用最新的参与者参数值。

  • 评论家年代一个ϕ——批评家,带着参数ϕ,进行观察年代和行动一个作为投入和回报的相应期望的长期回报。

  • 目标评论家t年代一个ϕt) -为了提高优化的稳定性,agent定期更新目标临界参数ϕt使用最新的批评家参数值。

这两个年代一个ϕ),t年代一个ϕt)具有相同的结构和参数化,并且两者都具有π年代θ),πt年代θt)具有相同的结构和参数化。

有关为函数近似创建actor和批评家的详细信息,请参见创建策略和值函数

在训练期间,代理调整参数值θ.训练后,参数保持其调谐值,训练后的actor函数近似值存储在π年代).

代理创建

您可以在MATLAB中创建和训练DDPG代理®命令行或使用强化学习设计师使用. app创建代理的详细信息强化学习设计师,请参阅使用强化学习设计器创建代理

在命令行上,您可以根据来自环境的观察和操作规范,创建具有默认参与者和评论家的DDPG代理。为此,请执行以下步骤。

  1. 为您的环境创建观察规范。如果已经有了环境接口对象,可以使用getObservationInfo

  2. 为您的环境创建操作规范。如果已经有了环境接口对象,可以使用getActionInfo

  3. 如果需要,指定每个可学习层中的神经元数量,或者是否使用LSTM层。为此,使用创建代理初始化选项对象rlAgentInitializationOptions

  4. 类型指定代理选项(如果需要)rlDDPGAgentOptions对象。

  5. 类创建代理rlDDPGAgent对象。

或者,您可以创建actor和critic,并使用这些对象来创建您的代理。在这种情况下,确保参与者和评论家的输入和输出维度与环境的相应操作和观察规范相匹配。

  1. 类创建一个参与者rlContinuousDeterministicActor对象。

  2. 创建一个评论家使用rlQValueFunction对象。

  3. 属性指定代理选项rlDDPGAgentOptions对象。

  4. 类创建代理rlDDPGAgent对象。

有关为函数近似创建actor和批评家的详细信息,请参见创建策略和值函数

训练算法

DDPG代理使用以下训练算法,其中他们在每个时间步更新他们的参与者和评论家模型。若要配置训练算法,请使用rlDDPGAgentOptions对象。

  • 初始化评论家年代一个ϕ),参数值随机ϕ,并初始化目标批评家参数ϕt具有相同的值: ϕ t ϕ

  • 初始化actorπ年代θ),参数值随机θ,并初始化目标actor参数θt具有相同的值: θ t θ

  • 对于每个训练时间步:

    1. 对于目前的观测年代,选择动作一个π年代θ) +N,在那里N是来自噪声模型的随机噪声。要配置噪声模型,请使用NoiseOptions选择。

    2. 执行动作一个.观察奖励R下一个观察年代

    3. 储存经验(年代一个R年代)。经验缓冲区的长度在ExperienceBufferLength的属性rlDDPGAgentOptions对象。

    4. 随机抽样一小批经验(年代一个R年代)来自经验缓冲区。指定,使用MiniBatchSize的属性rlDDPGAgentOptions对象。

    5. 如果年代是否是终端状态下,设定的价值函数目标yR.否则,设置为

      y R + γ t 年代 π t 年代 θ t ϕ t

      价值函数目标是经验奖励的总和R以及折现的未来回报。指定贴现因子γ,使用DiscountFactor选择。

      为了计算累积奖励,代理首先通过传递下一个观察来计算下一个动作年代从采样的经验到目标参与者。代理通过将下一个动作传递给目标评论家来找到累积奖励。

    6. 通过最小化损失来更新关键参数l在所有的样本经验中。

      l 1 1 y 年代 一个 ϕ 2

    7. 使用以下抽样策略梯度更新参与者参数,以最大化预期的折扣奖励。

      θ J 1 1 G 一个 G π G 一个 一个 年代 一个 ϕ 在哪里 一个 π 年代 θ G π θ π 年代 θ

      在这里,G人工智能评论家输出相对于行动者网络计算的动作的梯度,和Gπ我是参与者输出相对于参与者参数的梯度。两种梯度都进行了评估以供观察年代

    8. 根据目标更新方法更新目标参与者和批评家参数。有关更多信息,请参阅目标更新方法

为了简单起见,该算法中的演员和评论家更新使用基本的随机梯度下降来显示梯度更新。类中指定使用的优化器取决于实际的梯度更新方法rlOptimizerOptions对象赋给rlCriticOptimizerOptions财产。

目标更新方法

DDPG代理使用下列目标更新方法之一更新其目标参与者和批评者参数。

  • 平滑-使用平滑因子在每个时间步更新目标参数τ.要指定平滑因子,请使用TargetSmoothFactor选择。

    ϕ t τ ϕ + 1 τ ϕ t 评论家参数 θ t τ θ + 1 τ θ t 演员参数

  • 周期-定期更新目标参数,不平滑(TargetSmoothFactor = 1).要指定更新周期,请使用TargetUpdateFrequency参数。

  • 周期性的平滑—定期对目标参数进行平滑更新。

若要配置目标更新方法,请创建rlDDPGAgentOptions对象,并设置TargetUpdateFrequency而且TargetSmoothFactor参数说明如下表所示。

更新方法 TargetUpdateFrequency TargetSmoothFactor
平滑(默认) 1 不到1
周期 大于1 1
周期性的平滑 大于1 不到1

参考文献

利利克拉普、蒂莫西·P.、乔纳森·j·亨特、亚历山大·普里策尔、尼古拉斯·赫斯、汤姆·埃雷兹、尤瓦尔·塔萨、大卫·西尔弗和达安·威尔斯特拉。“深度强化学习的持续控制。”ArXiv:1509.02971 [Cs, Stat]2015年9月9日。https://arxiv.org/abs/1509.02971

另请参阅

|

相关的话题