rlStochasticActorRepresentation
强化学习代理随机演员表示
描述
对象实现一个函数的估计值作为一个随机的演员在强化学习代理。随机演员需要观测数据作为输入,并返回一个随机的行动,从而实现随机政策与特定的概率分布。当你创建一个rlStochasticActorRepresentation
对象,使用它来创建一个合适的代理,如一个rlACAgent
或rlPGAgent
代理。创建表示更多的信息,请参阅创建政策和价值函数表示。
创建
语法
描述
离散行动空间随机的演员
创建一个随机的演员与一个离散的行动空间,使用深层神经网络discActor
= rlStochasticActorRepresentation (净
,observationInfo
,discActionInfo
“观察”,obsName
)净
作为函数的估计值。在这里,输出层净
必须尽可能多的元素数量的离散动作。这个语法设置ObservationInfo和ActionInfo的属性discActor
的输入observationInfo
和discActionInfo
,分别。obsName
必须包含的输入层的名字吗净
。
创建一个离散空间随机演员使用一个自定义的基函数作为基本接近者。第一个输入参数是一个两个元素细胞中第一个元素包含了处理discActor
= rlStochasticActorRepresentation ({basisFcn
,W0
},observationInfo
,actionInfo
)basisFcn
一个自定义的基函数,第二个元素包含初始权重矩阵W0
。这个语法设置ObservationInfo和ActionInfo的属性discActor
的输入observationInfo
和actionInfo
,分别。
创建离散行为空间,随机的演员discActor
= rlStochasticActorRepresentation (___,选项
)discActor
使用额外的选项集选项
,这是一个rlRepresentationOptions
对象。这个语法设置选项的属性discActor
到选项
输入参数。您可以使用该语法与任何以前的输入参数组合。
持续的行动空间高斯的演员
创建一个高斯随机演员与一个连续动作使用深层神经网络空间接触器
= rlStochasticActorRepresentation (净
,observationInfo
,contActionInfo
“观察”,obsName
)净
作为函数的估计值。在这里,输出层净
必须有两倍的元素的数量连续行动空间的维度。这个语法设置ObservationInfo和ActionInfo的属性接触器
的输入observationInfo
和contActionInfo
分别。obsName
必须包含的输入层的名字吗净
。
请注意
接触器
不执行操作规范约束,因此,当使用这个演员,你必须执行行动空间中约束环境。
创建持续的行动空间,高斯的演员接触器
= rlStochasticActorRepresentation (___,选项
)接触器
使用额外的选项
选择集,这是一个rlRepresentationOptions
对象。这个语法设置选项的属性接触器
到选项
输入参数。您可以使用该语法与任何以前的输入参数组合。
输入参数
属性
对象的功能
rlACAgent |
Actor-critic强化学习代理 |
rlPGAgent |
政策梯度强化学习代理 |
rlPPOAgent |
近端政策优化强化学习代理 |
rlSACAgent |
软actor-critic强化学习代理 |
getAction |
从代理或演员获得行动表示给定环境的观察 |