钢筋学习代理的确定性演员代表
这个对象实现了一个函数逼近器,在具有不断的行动空间。确定性actor将观察结果作为输入并返回,因为输出最大化预期累积长期奖励的操作,从而实施确定性策略。创建一个决定论呈现
对象,使用它来创建合适的代理,例如RLDDPG试剂
代理人。有关创建表示的更多信息,请参阅创建策略和值函数表示。
使用深度神经网络创建确定性参与者演员
=rlDeterministicActorRepresentation(网
那观测信息
那行动信息
","观察",,obsName
,'行动',actname.
)网
作为近似剂。此语法设置了观察税收和ActionInfo.属性演员
输入观测信息
和行动信息
,分别包含观察和行动的规范。行动信息
必须指定连续动作空间,不支持离散动作空间。金宝appobsName
必须包含的输入层的名称网
与观察规范相关联。动作名称actname.
必须是输出层的名称网
与动作规范相关联。
使用自定义基函数创建一个确定性actor,作为基础近似值。第一个输入参数是一个双元素单元,其中第一个元素包含句柄演员
=rlDeterministicActorRepresentation({基础FCN.
那W0
},观测信息
那行动信息
)基础FCN.
对于自定义基函数,第二个元素包含初始权重矩阵W0
。此语法设置观察税收和ActionInfo.属性演员
分别到输入观测信息
和行动信息
。
使用附加选项集创建确定性参与者演员
=rlDeterministicActorRepresentation(___那选项
)选项
,这是一个rlrepresentationOptions.
此语法设置选择权财产演员
到了选项
输入参数。您可以将此语法与以前的任何输入参数组合一起使用。