rlContinuousGaussianActor
描述
创建
语法
描述
创建一个高斯随机演员与一个连续动作使用深层神经网络空间演员
= rlContinuousGaussianActor (净
,observationInfo
,actionInfo
ActionMeanOutputNames =netMeanActName
ActionStandardDeviationOutputNames =netStdvActName
)净
作为近似模型。在这里,净
必须有两个名字不同的输出层,每个都有尽可能多的元素数量的维度的空间,指定在吗actionInfo
。两个输出层必须返回每个组件的平均值和标准偏差的行动,分别。演员使用这些层的输出,根据名字中指定的字符串netMeanActName
和netStdActName
,代表高斯概率分布的行动是采样。这个语法设置ObservationInfo
和ActionInfo
的属性演员
的输入参数observationInfo
和actionInfo
,分别。
请注意
演员
不强制约束设定的行动规范。当使用这个演员比在其他任何地方都囊剂,你必须执行行动空间中约束环境。
指定的名称与环境相关的网络输入层观测通道。函数分配,按顺序排列的,每个环境观察通道中指定演员
= rlContinuousGaussianActor (净
,observationInfo
,actionInfo
ActionMeanOutputNames =netMeanActName
ActionStandardDeviationOutputNames =netStdActName
ObservationInputNames =netObsNames
)observationInfo
指定的层相应名称的字符串数组netObsNames
。因此,网络的输入层,命令的名称netObsNames
,必须具有相同的数据类型和维度观察规范,是命令observationInfo
。
指定的设备用来执行计算操作演员
= rlContinuousGaussianActor (___UseDevice =useDevice
)演员
对象,并设置UseDevice
的属性演员
到useDevice
输入参数。您可以使用该语法与任何以前的输入参数组合。
输入参数
属性
对象的功能
rlACAgent |
Actor-critic (AC)强化学习代理 |
rlPGAgent |
策略梯度(PG)强化学习代理 |
rlPPOAgent |
近端政策优化(PPO)强化学习代理 |
rlSACAgent |
软actor-critic (SAC)强化学习代理 |
getAction |
从代理,获得动作演员,或政策对象环境的观察 |
评估 |
评估函数近似者对象给定的观察(或observation-action)输入数据 |
梯度 |
评价梯度函数近似者对象给定的输入数据观察和行动 |
加速 |
选择加速计算梯度的近似者对象基于神经网络 |
getLearnableParameters |
从代理,获得可学的参数值函数近似者,或政策对象 |
setLearnableParameters |
设置代理可学的参数值,函数近似者,或政策对象 |
setModel |
集函数近似模型的演员或评论家 |
getModel |
从演员或评论家得到函数近似者模型 |
例子
版本历史
介绍了R2022a