rlContinuousGaussianActor
一种具有连续动作空间的随机高斯体强化学习代理
描述
创建
语法
描述
使用深度神经网络创建具有连续动作空间的高斯随机actor演员
= rlContinuousGaussianActor (网
,observationInfo
,actionInfo
ActionMeanOutputNames =netMeanActName
ActionStandardDeviationOutputNames =netStdvActName
)网
作为函数逼近器。在这里,网
必须具有两个不同名称的输出层,每个输出层具有与操作空间的维度数量相同的元素,如actionInfo
.两个输出层计算动作每个组件的平均值和标准偏差。参与者根据字符串中指定的名称使用这些层netMeanActName
而且netStdActName
,表示动作采样的高斯概率分布。函数设置ObservationInfo
而且ActionInfo
的属性演员
输入参数observationInfo
而且actionInfo
,分别。
请注意
演员
不强制操作规范设置的约束,因此,在使用此actor时,必须在环境中强制操作空间约束。
指定与环境观测通道关联的网络输入层的名称。该功能按顺序分配中指定的每个环境观测通道演员
= rlContinuousGaussianActor (网
,observationInfo
,actionInfo
ActionMeanOutputNames =netMeanActName
ActionStandardDeviationOutputNames =netStdActName
ObservationInputNames =netObsNames
)observationInfo
到字符串数组中对应名称指定的层netObsNames
.因此,在网络输入层中,按名称顺序排列netObsNames
,必须具有与观测规范相同的数据类型和尺寸observationInfo
.
对象上执行计算操作所使用的设备演员
= rlContinuousGaussianActor (___UseDevice =useDevice
)演员
对象,并设置UseDevice
的属性演员
到useDevice
输入参数。您可以将此语法用于前面的任何输入-参数组合。
输入参数
属性
对象的功能
rlACAgent |
演员-评论家强化学习代理 |
rlPGAgent |
策略梯度强化学习代理 |
rlPPOAgent |
近端策略优化强化学习代理 |
rlSACAgent |
软演员-评论家强化学习代理 |
getAction |
从给定环境观察的代理、参与者或策略对象获取操作 |
评估 |
给定观测(或观测-动作)输入数据,求函数逼近对象 |
梯度 |
给定观测和动作输入数据,求函数逼近对象的梯度 |
加速 |
基于神经网络的逼近对象梯度加速计算选项 |
getLearnableParameters |
从代理、函数逼近器或策略对象获取可学习的参数值 |
setLearnableParameters |
设置agent、函数逼近器或策略对象的可学习参数值 |
setModel |
为演员或评论家设置函数逼近模型 |
getModel |
从演员或评论家那里得到函数逼近器模型 |
例子
版本历史
R2022a中引入