rlDiscreteCategoricalActor
具有离散动作空间的随机分类actor强化学习代理
描述
创建
语法
描述
使用深度神经网络创建一个具有离散动作空间的随机角色演员
= rlDiscreteCategoricalActor (网
,observationInfo
,actionInfo
)网
作为函数逼近器。对于这个演员来说,actionInfo
必须指定一个离散操作空间。网络输入层根据中尺寸规范自动与环境观测通道关联observationInfo
.网络必须有一个单一的输出层,其中的元素与可能的离散动作的数量一样多actionInfo
.此函数设置ObservationInfo
而且ActionInfo
的属性演员
对于输入observationInfo
而且actionInfo
,分别。
请注意
演员
不强制操作规范设置的约束;因此,在使用此actor时,必须在环境中强制执行操作空间约束。
指定与环境观测通道关联的网络输入层的名称。该功能按顺序分配中指定的每个环境观测通道演员
= rlDiscreteCategoricalActor (网
,observationInfo
,actionInfo
ObservationInputNames =netObsNames
)observationInfo
到字符串数组中对应名称指定的层netObsNames
.因此,在网络输入层中,按名称顺序排列netObsNames
,必须具有与观测规范相同的数据类型和尺寸observationInfo
.
对象上执行计算操作所使用的设备演员
= rlDiscreteCategoricalActor (___UseDevice =useDevice
)演员
对象,并设置UseDevice
的属性演员
到useDevice
输入参数。您可以将此语法用于前面的任何输入-参数组合。
输入参数
属性
对象的功能
rlACAgent |
演员-评论家强化学习代理 |
rlPGAgent |
策略梯度强化学习代理 |
rlPPOAgent |
近端策略优化强化学习代理 |
getAction |
从给定环境观察的代理、参与者或策略对象获取操作 |
评估 |
给定观测(或观测-动作)输入数据,求函数逼近对象 |
梯度 |
给定观测和动作输入数据,求函数逼近对象的梯度 |
加速 |
基于神经网络的逼近对象梯度加速计算选项 |
getLearnableParameters |
从代理、函数逼近器或策略对象获取可学习的参数值 |
setLearnableParameters |
设置agent、函数逼近器或策略对象的可学习参数值 |
setModel |
为演员或评论家设置函数逼近模型 |
getModel |
从演员或评论家那里得到函数逼近器模型 |
例子
版本历史
R2022a中引入