强化学习智能体的随机角色表示
该对象实现了一个函数近似器,用于在强化学习代理内作为随机参与者。随机参与者将观察值作为输入,返回一个随机动作,从而实现具有特定概率分布的随机策略。在创建rlStochasticActorRepresentation
对象,使用它创建合适的代理,例如rlACAgent
或者rlpgagent.
代理人。有关创建表示的更多信息,请参阅创建策略和价值功能表示.
使用深神经网络创建一个带有离散动作空间的随机演员discActor
= rlStochasticActorRepresentation (网
,observationInfo
,discActionInfo
“观察”,obsName
)网
作为函数的估计值。这里,的输出层网
必须有尽可能多的元素可能的离散动作的数量。该语法设置ObservationInfo和ActionInfo的属性discActor
的输入observationInfo
和discActionInfo
,分别。obsName
的输入层的名称网
.
使用自定义基函数创建一个离散空间随机演员,作为底层近似器。第一个输入参数是一个双元素单元,其中第一个元素包含句柄discActor
= rlstochasticReRepresentation({basisFcn
,W0
},observationInfo
,actionInfo
)basisFcn
到自定义基本函数,第二个元素包含初始权重矩阵W0
.该语法设置ObservationInfo和ActionInfo的属性discActor
的输入observationInfo
和actionInfo
,分别。
创建离散动作空间,随机演员discActor
= rlStochasticActorRepresentation (___,选项
)discActor
使用附加选项集选项
,这是一个rlRepresentationOptions
对象。该语法设置选项的属性discActor
到了选项
输入参数。您可以将此语法与前面的任何输入参数组合一起使用。
利用深度神经网络创建具有连续动作空间的高斯随机行动者接触器
= rlStochasticActorRepresentation (网
,observationInfo
,contActionInfo
“观察”,obsName
)网
作为函数的估计值。这里,的输出层网
元素的数量必须是连续动作空间维度数的两倍。该语法设置ObservationInfo和ActionInfo的属性接触器
的输入observationInfo
和contActionInfo
分别。obsName
的输入层的名称网
.
请注意
接触器
不强制操作规范设置的约束,因此,当使用此参与者时,您必须在环境中强制操作空间约束。
创造连续的动作空间,高斯行动者接触器
= rlStochasticActorRepresentation (___,选项
)接触器
使用额外的选项
选项集,这是一个rlRepresentationOptions
对象。该语法设置选项的属性接触器
到了选项
输入参数。您可以将此语法与前面的任何输入参数组合一起使用。
rlACAgent |
行动者-批评家强化学习代理 |
rlpgagent. |
策略梯度强化学习代理 |
rlPPOAgent |
近端策略优化强化学习代理 |
rlSACAgent |
软演员-评论家强化学习代理 |
努力 |
根据环境观察,从行为者或行动者的表现中获得行动 |