rlDeterministicActorRepresentation
rlDeterministicActorRepresentation
不推荐。使用rlContinuousDeterministicActor
代替。有关更多信息,请参见rlDeterministicActorRepresentation不推荐。
描述
对象实现一个函数的估计值作为一个确定的演员在强化学习的代理连续行动的空间。确定的演员需要观察作为输入,并返回作为输出最大化预期的长期累积奖励的行为,从而实现一个确定的政策。当你创建一个rlDeterministicActorRepresentation
对象,使用它来创建一个合适的代理,如一个rlDDPGAgent
代理。创建表示更多的信息,请参阅创建政策和价值功能。
创建
语法
描述
创建一个使用深层神经网络确定的演员演员
= rlDeterministicActorRepresentation (净
,observationInfo
,actionInfo
“观察”,obsName
“行动”,actName
)净
作为估计值。这个语法设置ObservationInfo和ActionInfo的属性演员
的输入observationInfo
和actionInfo
,分别包含为观察和行为规范。actionInfo
必须指定一个持续的行动空间,不支持离散的行动空间。金宝appobsName
必须包含的输入层的名字吗净
与观察相关规范。动作名称actName
必须的输出层的名字吗净
相关的操作规范。
创建一个确定的演员使用一个自定义的基函数作为基本接近者。第一个输入参数是一个两个元素细胞中第一个元素包含了处理演员
= rlDeterministicActorRepresentation ({basisFcn
,W0
},observationInfo
,actionInfo
)basisFcn
一个自定义的基函数,第二个元素包含初始权重矩阵W0
。这个语法设置ObservationInfo和ActionInfo的属性演员
分别输入observationInfo
和actionInfo
。
创建一个确定的演员使用附加选项集演员
= rlDeterministicActorRepresentation (___,选项
)选项
,这是一个rlRepresentationOptions
对象。这个语法设置选项的属性演员
到选项
输入参数。您可以使用该语法与任何以前的输入参数组合。
输入参数
属性
对象的功能
rlDDPGAgent |
深决定性策略梯度(DDPG)强化学习代理 |
rlTD3Agent |
Twin-delayed深确定性(TD3)政策梯度强化学习代理 |
getAction |
从代理,获得动作演员,或政策对象环境的观察 |