政策梯度强化学习agent
策略梯度(PG)算法是一种无模型的在线策略强化学习方法。PG代理是一种基于策略的强化学习代理,它使用enhance算法直接计算一个使长期回报最大化的最优策略。动作空间可以是离散的,也可以是连续的。
有关PG代理和enhance算法的更多信息,请参见政策梯度代理.有关不同类型的强化学习代理的更多信息,请参见强化学习代理.
使用默认初始化选项,为具有给定观察和操作规范的环境创建策略梯度代理。代理中的行动者和评论家表示使用根据观察规范建立的默认深度神经网络代理
= rlPGAgent (observationInfo
,actionInfo
)observationInfo
还有动作规范actionInfo
.
为具有给定观察和操作规范的环境创建策略梯度代理。代理使用默认网络,其中每个隐藏的全连接层都有在代理
= rlPGAgent (observationInfo
,actionInfo
,initOpts
)initOpts
对象。策略梯度代理不支持递归神经网络。金宝app有关初始化选项的更多信息,请参见rlAgentInitializationOptions
.
使用指定的角色网络创建PG代理。默认情况下,代理
= rlPGAgent (演员
)UseBaseline
代理人的财产是假
在这种情况下。
创建PG代理并设置代理
= rlPGAgent (___,agentOptions
)AgentOptions
财产agentOptions
输入参数。在前面语法中的任何输入参数之后使用此语法。
对于连续的活动空间rlPGAgent
代理不会强制操作规范设置的约束,因此必须在环境中强制操作空间约束。
深层网络设计师|rlAgentInitializationOptions
|rlPGAgentOptions
|rlStochasticActorRepresentation
|rlValueRepresentation