钢筋学习代理的确定性演员代表
该对象实现了用作加强学习代理中的确定性actor的函数近似器。连续行动空间。确定性actor将观察结果作为输入并返回,因为输出最大化预期累积长期奖励的操作,从而实施确定性策略。创建一个RLDETerminyActorRepresentation
对象,使用它来创建合适的代理,例如rlddpgagent.
代理人。有关创建表示的更多信息,请参阅创建策略和值函数表示。
使用深神经网络创建一个确定性演员演员
= RLDETerministicActorRepresentation(净
那观察税收
那ActionInfo.
,'观察',obsname.
,'行动',actname.
)净
作为近似剂。此语法设置了观察税收和ActionInfo.属性演员
对投入观察税收
和ActionInfo.
,包含分别观察和行动的规范。ActionInfo.
必须指定连续动作空间,不支持离散操作空间。金宝appobsname.
必须包含输入层的名称净
与观察规范相关联。动作名称actname.
必须是输出层的名称净
与动作规范相关联。
使用自定义基函数创建一个确定性actor,作为基础近似值。第一个输入参数是一个双元素单元,其中第一个元素包含句柄演员
= RLDETerminyActorRepresentation({基础FCN.
那W0.
},观察税收
那ActionInfo.
)基础FCN.
到自定义基础函数,第二个元素包含初始权重矩阵W0.
。此语法设置了观察税收和ActionInfo.属性演员
分别到输入观察税收
和ActionInfo.
。
使用其他选项集创建确定性actor演员
= RLDETerministicActorRepresentation(___那选择
)选择
,这是一个rlrepresentationOptions.
对象。此语法设置了选择财产演员
到了选择
输入参数。您可以使用任何以前的Infux-Argument组合使用此语法。
rlddpgagent. |
深度确定性政策梯度加固学习代理 |
rltd3agent. |
双延迟深度确定性政策梯度加固学习代理 |
努力 |
从代理商或演员代表获取行动给定环境观察 |