强化学习智能体的随机角色表示
该对象实现了一个函数近似器,用于在强化学习代理内作为随机参与者。随机参与者将观察值作为输入,返回一个随机动作,从而实现具有特定概率分布的随机策略。在创建rlStochasticActorRepresentation
对象,使用它创建合适的代理,例如rlACAgent
或rlPGAgent
代理。有关创建表示的更多信息,请参见创建策略和价值功能表示.
利用深度神经网络创建具有离散动作空间的随机参与者discActor
= rlStochasticActorRepresentation (净
,observationInfo
,discActionInfo
“观察”,obsName
)净
作为函数逼近器。这里,输出层净
必须具有尽可能多的元素以满足可能的离散操作数。此语法设置ObservationInfo和行动信息的属性discActor
的输入observationInfo
和discActionInfo
分别地obsName
的输入层的名称净
.
使用自定义基函数作为基本近似器创建离散空间随机行动者。第一个输入参数是一个包含两个元素的单元格,其中第一个元素包含句柄discActor
= rlStochasticActorRepresentation ({basisFcn
,W0
},observationInfo
,actionInfo
)basisFcn
为自定义基函数,第二个元素包含初始权矩阵W0
.该语法设置ObservationInfo和行动信息的属性discActor
的输入observationInfo
和actionInfo
分别地
创造离散的行动空间,随机的行动者discActor
= rlStochasticActorRepresentation (___,选项
)discActor
使用附加选项集选项
,这是一个rlRepresentationOptions
对象。该语法设置选项性质discActor
到选项
输入参数。您可以将此语法与前面的任何输入参数组合一起使用。
利用深度神经网络创建具有连续动作空间的高斯随机行动者接触器
= rlStochasticActorRepresentation (净
,observationInfo
,contActionInfo
“观察”,obsName
)净
作为函数逼近器。这里,输出层净
元素的数量必须是连续动作空间维度数的两倍。该语法设置ObservationInfo和行动信息的属性接触器
的输入observationInfo
和contActionInfo
分别。obsName
的输入层的名称净
.
笔记
接触器
不强制操作规范设置的约束,因此,当使用此参与者时,您必须在环境中强制操作空间约束。
创造连续的动作空间,高斯行动者接触器
= rlStochasticActorRepresentation (___,选项
)接触器
使用附加的选项
选项集,它是rlRepresentationOptions
对象。该语法设置选项性质接触器
到选项
输入参数。您可以将此语法与前面的任何输入参数组合一起使用。
rlACAgent |
演员-评论家强化学习代理 |
rlPGAgent |
策略梯度强化学习代理 |
RLP发泡剂 |
最近策略优化强化学习代理 |
rlSACAgent |
软演员-评论家强化学习代理 |
getAction |
从给定环境观察的代理或参与者表示中获取操作 |