rlDeterministicActorRepresentation
(不推荐)用于强化学习代理的确定性参与者表示
rlDeterministicActorRepresentation
不建议使用。使用rlContinuousDeterministicActor
代替。有关更多信息,请参见不建议使用rlDeterministicActorRepresentation.
描述
该对象实现了一个函数逼近器,该函数逼近器被用作增强学习代理中的确定性actor连续行动的空间。确定性行为者将观察结果作为输入,并将使预期累积长期回报最大化的行为作为输出返回,从而实现确定性策略。在创建一个rlDeterministicActorRepresentation
对象,使用它创建合适的代理,例如rlDDPGAgent
代理。有关创建表示的详细信息,请参见创建策略和值函数.
创建
语法
描述
使用深度神经网络创建一个确定性角色演员
= rlDeterministicActorRepresentation (网
,observationInfo
,actionInfo
“观察”,obsName
“行动”,actName
)网
作为估计值。此语法设置ObservationInfo而且ActionInfo的属性演员
对于输入observationInfo
而且actionInfo
,分别包含观察和操作的规范。actionInfo
必须指定连续操作空间,不支持离散操作空间。金宝appobsName
必须包含的输入层的名称网
与观察规范相关的。动作名actName
必须是输出层的名称网
与动作规范相关联的。
使用自定义基函数作为基础逼近器创建确定性参与者。第一个输入参数是一个包含两个元素的单元格,其中第一个元素包含句柄演员
= rlDeterministicActorRepresentation ({basisFcn
,W0
},observationInfo
,actionInfo
)basisFcn
到自定义基函数,而第二个元素包含初始权值矩阵W0
.此语法设置ObservationInfo而且ActionInfo的属性演员
分别对应于输入observationInfo
而且actionInfo
.
使用附加选项集创建确定性参与者演员
= rlDeterministicActorRepresentation (___,选项
)选项
,这是一个rlRepresentationOptions
对象。此语法设置选项的属性演员
到选项
输入参数。您可以将此语法用于前面的任何输入-参数组合。
输入参数
属性
对象的功能
rlDDPGAgent |
深度确定性策略梯度(DDPG)强化学习代理 |
rlTD3Agent |
双延迟深度确定性策略梯度强化学习代理 |
getAction |
从给定环境观察的代理、参与者或策略对象获取操作 |