rlContinuousDeterministicActor
描述
对象实现一个函数的估计值作为一个确定的演员在强化学习代理一个持续的行动空间。连续确定的演员需要一个环境观察作为输入并返回输出一个动作,观察的是一个参数化的确定性函数,从而实现参数化确定的政策。当你创建一个rlContinuousDeterministicActor
对象,使用它来创建一个合适的代理,等rlDDPGAgent
。创建表示更多的信息,请参阅创建政策和价值功能。
创建
语法
描述
创建了一个连续使用深层神经网络确定的演员对象演员
= rlContinuousDeterministicActor (净
,observationInfo
,actionInfo
)净
作为潜在的近似模型。对于这个演员,actionInfo
必须指定一个持续的行动空间。与环境相关的网络输入层自动观测通道根据尺寸规格observationInfo
。网络必须要有一个输出层具有相同的数据类型和维度中指定的操作actionInfo
。这个函数设置ObservationInfo
和ActionInfo
的属性演员
到observationInfo
和actionInfo
分别输入参数。
指定的名称与环境相关的网络输入层观测通道。函数分配,按顺序排列的,每个环境观察通道中指定演员
= rlContinuousDeterministicActor (净
,observationInfo
,actionInfo
ObservationInputNames =netObsNames
)observationInfo
指定的层相应名称的字符串数组netObsNames
。因此,网络的输入层,命令的名称netObsNames
,必须具有相同的数据类型和维度观察通道,是命令observationInfo
。
指定的设备用来执行计算操作演员
= rlContinuousDeterministicActor (___UseDevice =useDevice
)演员
对象,并设置UseDevice
的属性演员
到useDevice
输入参数。您可以使用该语法与任何以前的输入参数组合。
输入参数
属性
对象的功能
rlDDPGAgent |
深决定性策略梯度(DDPG)强化学习代理 |
rlTD3Agent |
Twin-delayed深确定性(TD3)政策梯度强化学习代理 |
getAction |
从代理,获得动作演员,或政策对象环境的观察 |
评估 |
评估函数近似者对象给定的观察(或observation-action)输入数据 |
梯度 |
评价梯度函数近似者对象给定的输入数据观察和行动 |
加速 |
选择加速计算梯度的近似者对象基于神经网络 |
getLearnableParameters |
从代理,获得可学的参数值函数近似者,或政策对象 |
setLearnableParameters |
设置代理可学的参数值,函数近似者,或政策对象 |
setModel |
集函数近似模型的演员或评论家 |
getModel |
从演员或评论家得到函数近似者模型 |
例子
版本历史
介绍了R2022a