深度确定性策略梯度(DDPG)代理- MATLAB和Simulink - MathWorks瑞士金宝app

深度确定性策略梯度(DDPG)代理

深度确定性策略梯度(DDPG)算法是一种无模型、在线、非策略强化学习方法。DDPG代理是一种行动者-评论家的强化学习代理，它搜索一种最优策略，使预期的累积长期奖励最大化。

有关不同类型的强化学习代理的更多信息，请参见强化学习代理．

DDPG代理可以在具有以下观察和行动空间的环境中进行训练。

观察太空	行动空间
连续或离散	连续

DDPG代理使用以下演员和评论家。

评论家	演员
q值函数评论家问（年代，一个)，您可以使用它来创建`rlQValueFunction`	确定性策略行动者π（年代)，您可以使用它来创建`rlContinuousDeterministicActor`

培训期间，DDPG代理:

在学习过程中的每个时间步骤更新参与者和评论家属性。
使用循环经验缓冲区存储过去的经验。代理使用从缓冲区中随机抽样的一小批经验来更新演员和评论家。
在每个训练步骤中使用随机噪声模型扰动策略选择的动作。

演员和评论家的功能

为了估计策略函数和值函数，DDPG代理维护四个函数逼近器:

演员π（年代；θ-参与者，带参数θ，进行观察年代并返回相应的行动，使长期奖励最大化。
目标的演员π_t（年代；θ_t) -为了提高优化的稳定性，agent定期更新目标actor参数θ_t使用最新的参与者参数值。
评论家问（年代，一个；ϕ——批评家，带着参数ϕ，进行观察年代和行动一个作为投入和回报的相应期望的长期回报。
目标评论家问_t（年代，一个；ϕ_t) -为了提高优化的稳定性，agent定期更新目标临界参数ϕ_t使用最新的批评家参数值。

这两个问（年代，一个；ϕ),问_t（年代，一个；ϕ_t)具有相同的结构和参数化，并且两者都具有π（年代；θ),π_t（年代；θ_t)具有相同的结构和参数化。

有关为函数近似创建actor和批评家的详细信息，请参见创建策略和值函数．

在训练期间，代理调整参数值θ．训练后，参数保持其调谐值，训练后的actor函数近似值存储在π（年代)．

代理创建

您可以在MATLAB中创建和训练DDPG代理^®命令行或使用强化学习设计师使用. app创建代理的详细信息强化学习设计师,请参阅使用强化学习设计器创建代理．

在命令行上，您可以根据来自环境的观察和操作规范，创建具有默认参与者和评论家的DDPG代理。为此，请执行以下步骤。

为您的环境创建观察规范。如果已经有了环境接口对象，可以使用getObservationInfo．
为您的环境创建操作规范。如果已经有了环境接口对象，可以使用getActionInfo．
如果需要，指定每个可学习层中的神经元数量，或者是否使用LSTM层。为此，使用创建代理初始化选项对象rlAgentInitializationOptions．
类型指定代理选项(如果需要)rlDDPGAgentOptions对象。
类创建代理rlDDPGAgent对象。

或者，您可以创建actor和critic，并使用这些对象来创建您的代理。在这种情况下，确保参与者和评论家的输入和输出维度与环境的相应操作和观察规范相匹配。

类创建一个参与者rlContinuousDeterministicActor对象。
创建一个评论家使用rlQValueFunction对象。
属性指定代理选项rlDDPGAgentOptions对象。
类创建代理rlDDPGAgent对象。

有关为函数近似创建actor和批评家的详细信息，请参见创建策略和值函数．

训练算法

DDPG代理使用以下训练算法，其中他们在每个时间步更新他们的参与者和评论家模型。若要配置训练算法，请使用rlDDPGAgentOptions对象。

初始化评论家问（年代，一个；ϕ)，参数值随机ϕ，并初始化目标批评家参数ϕ_t具有相同的值: $ϕ_{t} ＝ ϕ$ ．
初始化actorπ（年代；θ)，参数值随机θ，并初始化目标actor参数θ_t具有相同的值: $θ_{t} ＝ θ$ ．
对于每个训练时间步:
1. 对于目前的观测年代，选择动作一个＝π（年代；θ) +N,在那里N是来自噪声模型的随机噪声。要配置噪声模型，请使用NoiseOptions选择。
2. 执行动作一个．观察奖励R下一个观察年代．
3. 储存经验(年代，一个，R，年代)。经验缓冲区的长度在ExperienceBufferLength的属性rlDDPGAgentOptions对象。
4. 随机抽样一小批米经验(年代_我，一个_我，R_我，年代_我)来自经验缓冲区。指定米，使用MiniBatchSize的属性rlDDPGAgentOptions对象。
5. 如果年代_我是否是终端状态下，设定的价值函数目标y_我来R_我．否则，设置为
  
  $y_{我} ＝ R_{我} + γ 问_{t} （ {年代}_{我} ＇， π_{t} （ {年代}_{我} ＇； θ_{t} ）； ϕ_{t} ）$
  
  价值函数目标是经验奖励的总和R_我以及折现的未来回报。指定贴现因子γ，使用DiscountFactor选择。
  为了计算累积奖励，代理首先通过传递下一个观察来计算下一个动作年代_我从采样的经验到目标参与者。代理通过将下一个动作传递给目标评论家来找到累积奖励。
6. 通过最小化损失来更新关键参数l在所有的样本经验中。
  
  $l ＝ \frac{1}{米} \sum_{我＝ 1}^{米} {（ y_{我} - 问（ {年代}_{我} ， {一个}_{我} ； ϕ ））}^{2}$
7. 使用以下抽样策略梯度更新参与者参数，以最大化预期的折扣奖励。
  
  $\begin{array}{l} \nabla_{θ} J \approx \frac{1}{米} \sum_{我＝ 1}^{米} G_{一个我} G_{π 我} \\ G_{一个我} ＝ \nabla_{一个} 问（ {年代}_{我} ，一个； ϕ ）在哪里一个＝ π （ {年代}_{我} ； θ ） \\ G_{π 我} ＝ \nabla_{θ} π （ {年代}_{我} ； θ ） \end{array}$
  
  在这里,G_人工智能评论家输出相对于行动者网络计算的动作的梯度，和G_π我是参与者输出相对于参与者参数的梯度。两种梯度都进行了评估以供观察年代_我．
8. 根据目标更新方法更新目标参与者和批评家参数。有关更多信息，请参阅目标更新方法．

为了简单起见，该算法中的演员和评论家更新使用基本的随机梯度下降来显示梯度更新。类中指定使用的优化器取决于实际的梯度更新方法rlOptimizerOptions对象赋给rlCriticOptimizerOptions财产。

目标更新方法

DDPG代理使用下列目标更新方法之一更新其目标参与者和批评者参数。

平滑-使用平滑因子在每个时间步更新目标参数τ．要指定平滑因子，请使用TargetSmoothFactor选择。

$\begin{array}{l} ϕ_{t} ＝ τ ϕ + （ 1 - τ ） ϕ_{t} （评论家参数） \\ θ_{t} ＝ τ θ + （ 1 - τ ） θ_{t} （演员参数） \end{array}$
周期-定期更新目标参数，不平滑(TargetSmoothFactor = 1)．要指定更新周期，请使用TargetUpdateFrequency参数。
周期性的平滑—定期对目标参数进行平滑更新。

若要配置目标更新方法，请创建rlDDPGAgentOptions对象，并设置TargetUpdateFrequency而且TargetSmoothFactor参数说明如下表所示。

更新方法	`TargetUpdateFrequency`	`TargetSmoothFactor`
平滑(默认)	`1`	不到`1`
周期	大于`1`	`1`
周期性的平滑	大于`1`	不到`1`

参考文献

利利克拉普、蒂莫西·P.、乔纳森·j·亨特、亚历山大·普里策尔、尼古拉斯·赫斯、汤姆·埃雷兹、尤瓦尔·塔萨、大卫·西尔弗和达安·威尔斯特拉。“深度强化学习的持续控制。”ArXiv:1509.02971 [Cs, Stat]2015年9月9日。https://arxiv.org/abs/1509.02971．

另请参阅

rlDDPGAgent|rlDDPGAgentOptions