主要内容

近端政策优化代理

近端策略优化(PPO)是一种无模型、在线、基于策略的策略梯度强化学习方法。该算法是一种策略梯度训练,它通过环境交互来交替采样数据和使用随机梯度下降来优化修剪过的代理目标函数。剪切的代理目标函数通过限制每一步策略变化的大小来提高训练的稳定性[1].

PPO是TRPO的简化版。在计算上,TRPO比PPO更昂贵,但如果环境动力学是确定性的,且观察是低维的,TRPO往往比PPO更稳健。有关TRPO代理的更多信息,请参见信任区域策略优化代理.

有关不同类型的强化学习代理的更多信息,请参见强化学习代理.

PPO代理人可以在以下观察和行动空间的环境中进行训练。

观测空间 动作空间
离散或连续 离散或连续

PPO代理使用以下参与者和评论家表示。

批评家 演员

价值函数的评论家v(s),您可以使用rlValueRepresentation

随机政策参与者π(s),您可以使用rlStochasticActorRepresentation

培训期间,PPO代理应:

  • 估计行动空间中采取每个行动的概率,并根据概率分布随机选择行动。

  • 使用当前策略与环境进行多个步骤的交互,然后使用小批量在多个时间段内更新参与者和评论家属性。

如果利用决定论剥削选择权rlPPOAgentOptions被设置为真正的具有最大可能性的动作通常用于模拟生成策略函数. 因此,模拟代理和生成的策略的行为具有确定性。

演员和评论家功能

为了估计策略和价值功能,PPO代理维持两个功能近似器:

  • 演员π(s|θ)-演员,带参数θ需要观察s并返回:

    • 处于状态时在动作空间中执行每个动作的概率s(对于离散作用空间)

    • 每个动作的高斯概率分布的均值和标准差(对于连续动作空间)

  • 批评家v(s|ϕ)-批评家,带参数ϕ需要观察s并返回贴现长期报酬的相应期望值。

训练完成后,训练后的最优策略存储在actor中π(s).

有关为函数近似创建actor和批评者的更多信息,请参见创建策略和价值功能表示.

代理创建

您可以在MATLAB中创建和培训PPO代理®命令行或使用强化学习设计师应用程序。

有关使用创建代理的详细信息,请参见强化学习设计师看见使用强化学习设计器创建代理.

在命令行中,您可以根据环境中的观察和操作规范,创建具有默认参与者和批评者表示形式的PPO代理。为此,请执行以下步骤。

  1. 为您的环境创建观察规范。如果您已经有了一个环境接口对象,您可以使用以下方法获取这些规范getObservationInfo.

  2. 为您的环境创建操作规范。如果您已经有了一个环境接口对象,您可以使用以下方法获取这些规范getActionInfo.

  3. 如果需要,指定每个可学习层的神经元数量或是否使用LSTM层。为此,使用以下方法创建代理初始化选项对象rlAgentInitializationOptions.

  4. 使用rlPPOAgentOptions对象。

  5. 使用RLP发泡剂对象。

或者,您可以创建演员和评论家表示,并使用这些表示来创建代理。在这种情况下,请确保参与者和批评家表示的输入和输出维度与环境的相应操作和观察规范相匹配。

  1. 使用rlStochasticActorRepresentation对象。

  2. 使用rlValueRepresentation对象。

  3. 如果需要,使用rlPPOAgentOptions对象。

  4. 使用RLP发泡剂作用

PPO代理支持使用递归金宝app深层神经网络作为函数逼近器的参与者和批评者。

有关为函数近似创建actor和批评者的更多信息,请参见创建策略和价值功能表示.

训练算法

PPO代理使用以下训练算法。要配置训练算法,请使用rlPPOAgentOptions对象。

  1. 初始化的演员π(s)具有随机参数值θ.

  2. 初始化批评v(s)具有随机参数值ϕ.

  3. 生成N遵循当前政策的经验。经验序列是

    s T s , A. T s , R T s + 1. , s T s + 1. , , s T s + N 1. , A. T s + N 1. , R T s + N , s T s + N

    在这里,sT是一种状态观察,A.T是该州采取的行动,st+1是下一个州,和Rt+1是否收到搬家的奖励sTst+1.

    在国家sT, agent利用动作空间计算采取每个动作的概率π(sT)并随机选择动作A.T基于概率分布。

    ts是当前数据集的开始时间步长N经验。在训练开始时,ts= 1。对于每个后续的集合N在同一训练阶段的经历,tsts+N.

    对于每一个不包含终结状态的体验序列,N等于经验视野选项值。否则,N小于经验视野sN是终端状态。

  4. 对于每个发作步骤T=ts+ 1,ts+ 2,…,ts+N,使用AdvantageEstimateMethod选择。

    • 有限视界(AdvantageEstimateMethod=“有限地平线”)-计算回报GT即这一步的奖励和未来的折现奖励之和[2].

      G T = K = T T s + N ( γ K T R K ) + B γ N T + 1. v ( s T s + N | ϕ )

      在这里,B0如果sts+N是终末状态和1.否则也就是说,如果sts+N不是终端状态,贴现的未来奖励包括贴现状态值函数,使用批评家网络计算v.

      计算优势函数DT.

      D T = G T v ( s T | ϕ )

    • 广义的优势估计量(AdvantageEstimateMethod = " gae ") -计算优势函数DT,即时间差误差的折现和[3].

      D T = K = T T s + N 1. ( γ λ ) K T δ K δ K = R T + B γ v ( s T | ϕ )

      在这里,B0如果sts+N是终末状态和1.否则λ是使用GAEFactor选择。

      计算返回GT.

      G T = D T + v ( s T | ϕ )

    指定折扣因子γ对于这两种方法,使用折扣因素选择。

  5. 从过去的小批量经验中学习K时代的发展。指定K,使用努梅波奇选项对于每个学习阶段:

    1. 抽样大小的随机小批量数据集M从目前的经验来看。指定M,使用小批量选择。迷你批处理数据集的每个元素都包含一个当前经验以及相应的返回和优势函数值。

    2. 通过最小化损失来更新临界参数L评论家在所有采样的小批量数据中。

      L C R T C ( ϕ ) = 1. M = 1. M ( G v ( s | ϕ ) ) 2.

    3. 将优势值标准化D基于近期未归一化的优势值。

      • 如果NormalizedAdvantageMethod选择是“没有”,不要规范化优势值。

        D ^ D

      • 如果NormalizedAdvantageMethod选择是“当前”,根据当前小批处理中的未归一化优势对优势值进行归一化。

        D ^ D M E A. N ( D 1. , D 2. , , D M ) s T D ( D 1. , D 2. , , D M )

      • 如果NormalizedAdvantageMethod选择是“移动”,在非归一化优势的基础上对优势值进行归一化N最近的优势,包括当前优势值。指定窗口大小的步骤N,使用AdvantageNormalizingWindow选择。

        D ^ D M E A. N ( D 1. , D 2. , , D N ) s T D ( D 1. , D 2. , , D N )

    4. 通过最小化actor损失函数来更新actor参数L演员在所有采样的小批量数据中。

      L A. C T o R ( θ ) = 1. M = 1. M ( 最小值 ( R ( θ ) D , C ( θ ) D ) + W ( θ , s ) ) R ( θ ) = π ( s | θ ) π ( s | θ o L D ) C ( θ ) = 最大值 ( 最小值 ( R ( θ ) , 1. + ε ) , 1. ε )

      在这里:

      • DG是否为优势函数和返回值小批量的元素,分别。

      • π(s|θ)是采取行动的概率A.在国家s,给定更新的策略参数θ.

      • π(s|θ)是采取行动的概率A.在国家s,给定以前的策略参数θ在当前的学习时代之前。

      • ε是否使用ClipFactor选择。

      • (θ)是熵损失和W是熵损失重量因子,使用无熵重量选择。有关熵损失的更多信息,请参见熵损失.

  6. 重复步骤3到步骤5,直到训练阶段到达终点。

熵损失

为了促进agent探索,可以添加熵损失项W(θ,s)为actor损失函数,其中W熵损失是重量和吗(θ,s)是熵。

当agent对下一步的动作不确定时,熵值越大。因此,最大化熵损失项(最小化负熵损失)会增加agent的不确定性,从而鼓励探索。为了促进额外的探索(这可以帮助代理移出局部最优),您可以指定更大的熵损失权重。

对于离散动作空间,代理使用以下熵值。在这种情况下,参与者输出采取每个可能的离散动作的概率。

( θ , s ) = K = 1. P π K ( s | θ ) 自然对数 π K ( s | θ )

在这里:

  • P是可能的离散操作数。

  • πK(s|θ)是采取行动的概率A.K在国家s按照现行政策。

对于连续动作空间,代理使用以下熵值。在这种情况下,参与者输出每个连续动作的高斯分布的平均值和标准偏差。

( θ , s ) = 1. 2. K = 1. C 自然对数 ( 2. π E σ K , 2. )

在这里:

  • C是参与者输出的连续动作数。

  • σ凯西,我是否有行动的标准偏差K在国家s按照现行政策。

参考文献

[1] 舒尔曼、约翰、菲利普·沃尔斯基、普拉夫拉·达里瓦尔、亚历克·拉德福德和奥列格·克里莫夫。“策略优化算法。”ArXiv:1707.06347[Cs], 2017年7月19日。https://arxiv.org/abs/1707.06347.

[2] Mnih, Volodymyr, Adrià Puigdomènech Badia, Mehdi Mirza, Alex Graves, Timothy P. lilliicrap, Tim Harley, David Silver, Koray Kavukcuoglu。深度强化学习的异步方法ArXiv:1602.01783[Cs],2016年2月4日。https://arxiv.org/abs/1602.01783.

[3]舒尔曼,约翰,菲利普·莫里茨,谢尔盖·莱文,迈克尔·乔丹和彼得·阿比尔。“利用广义优势估计的高维连续控制”。ArXiv: 1506.02438 (Cs)2018年10月20日。https://arxiv.org/abs/1506.02438.

另见

|

相关的话题