rlDiscreteCategoricalActor
描述
创建
语法
描述
创建一个随机的演员与一个离散的行动空间,使用深层神经网络演员
= rlDiscreteCategoricalActor (净
,observationInfo
,actionInfo
)净
作为潜在的近似模型。对于这个演员,actionInfo
必须指定一个离散的行动空间。与环境相关的网络输入层自动观测通道根据尺寸规格observationInfo
。网络必须要有一个输出层和尽可能多的元素的数量可能离散行动,中指定actionInfo
。这个函数设置ObservationInfo
和ActionInfo
的属性演员
的输入observationInfo
和actionInfo
,分别。
指定的名称与环境相关的网络输入层观测通道。函数分配,按顺序排列的,每个环境观察通道中指定演员
= rlDiscreteCategoricalActor (净
,observationInfo
,actionInfo
ObservationInputNames =netObsNames
)observationInfo
指定的层相应名称的字符串数组netObsNames
。因此,网络的输入层,命令的名称netObsNames
,必须具有相同的数据类型和维度观察通道,是命令observationInfo
。
指定的设备用来执行计算操作演员
= rlDiscreteCategoricalActor (___UseDevice =useDevice
)演员
对象,并设置UseDevice
的属性演员
到useDevice
输入参数。您可以使用该语法与任何以前的输入参数组合。
输入参数
属性
对象的功能
rlACAgent |
Actor-critic (AC)强化学习代理 |
rlPGAgent |
策略梯度(PG)强化学习代理 |
rlPPOAgent |
近端政策优化(PPO)强化学习代理 |
getAction |
从代理,获得动作演员,或政策对象环境的观察 |
评估 |
评估函数近似者对象给定的观察(或observation-action)输入数据 |
梯度 |
评价梯度函数近似者对象给定的输入数据观察和行动 |
加速 |
选择加速计算梯度的近似者对象基于神经网络 |
getLearnableParameters |
从代理,获得可学的参数值函数近似者,或政策对象 |
setLearnableParameters |
设置代理可学的参数值,函数近似者,或政策对象 |
setModel |
集函数近似模型的演员或评论家 |
getModel |
从演员或评论家得到函数近似者模型 |
例子
版本历史
介绍了R2022a