策略梯度强化学习代理
策略梯度(PG)算法是一种无模型、在线、基于策略的强化学习方法。PG智能体是一种基于策略的强化学习智能体,它直接计算出使长期收益最大化的最优策略。动作空间可以是离散的,也可以是连续的。
使用默认初始化选项,为具有给定观察和操作规范的环境创建策略梯度代理。代理中的行动者和批评者表示使用从观察规范构建的默认深度神经网络代理
= rlPGAgent (observationInfo
,actionInfo
)observationInfo
以及动作规范actionInfo
.
为具有给定观察和操作规范的环境创建策略梯度代理。代理使用默认网络,其中每个隐藏的全连接层都有指定的单元数代理
= rlPGAgent (observationInfo
,actionInfo
,initOpts
)initOpts
对象。策略梯度代理不支持递归神经网络。金宝app有关初始化选项的更多信息,请参见rlAgentInitializationOptions
.
使用指定的actor网络创建一个PG代理。默认情况下,代理
= rlPGAgent (演员
)UseBaseline
代理人的财产是假
在这种情况下。
创建一个PG代理并设置代理
= rlPGAgent (___,agentOptions
)AgentOptions
财产agentOptions
输入参数。在前面语法中的任何输入参数之后使用此语法。
对于连续的动作空间,rlPGAgent
代理不执行操作规范设置的约束,因此必须在环境中执行操作空间约束。
深层网络设计师|rlAgentInitializationOptions
|rlPGAgentOptions
|rlStochasticActorRepresentation
|rlValueRepresentation