rlRepresentation
不推荐。根据所创建的表示类型,可以使用以下对象之一:
的一些典型用法如下表所示rlRepresentation
函数来创建基于神经网络的评论家和参与者,以及如何使用一个新对象来更新代码。
基于网络的表示:不推荐 |
基于网络的表示:推荐 |
代表= rlRepresentation (obsInfo净,“观察”,obsName) ,净 只有观察值作为输入,只有一个标量输出。
|
代表= rlValueRepresentation (obsInfo净,“观察”,obsName) .使用此语法为不需要操作输入的评论家创建表示,例如rlACAgent 或rlPGAgent 代理。
|
代表= rlRepresentation(净、obsInfo actInfo,“观察”,obsName,‘行动’,actName) ,净 将观察和操作作为输入,并使用单个标量输出。
|
代表= rlQValueRepresentation(净、obsInfo actInfo,“观察”,obsName,‘行动’,actName) .使用此语法为同时将观察和操作作为输入的批评家创建单一输出状态-动作值表示,例如rlDQNAgent 或rlDDPGAgent 代理。
|
代表= rlRepresentation(净、obsInfo actInfo,“观察”,obsName,‘行动’,actName) ,净 把观察作为输入,把行动作为输出actInfo 定义一个连续的动作空间。
|
代表= rlDeterministicActorRepresentation(净、obsInfo actInfo,“观察”,obsName,‘行动’,actName) .使用此语法为连续操作空间创建确定性参与者表示。
|
代表= rlRepresentation(净、obsInfo actInfo,“观察”,obsName,‘行动’,actName) ,净 把观察作为输入,把行动作为输出actInfo 定义一个离散的动作空间。
|
代表= rlStochasticActorRepresentation(净、obsInfo actInfo,“观察”,obsName) .使用此语法为离散动作空间创建随机参与者表示。
|
的一些典型用法如下表所示rlRepresentation
对象使用离散的观察和操作空间来表示基于表的评论,以及如何使用一个新对象来更新代码。
基于表的表示:不推荐 |
推荐表格表示: |
代表= rlRepresentation(选项卡) ,选项卡 包含值表的列向量只要是可能的观测数。
|
obsInfo代表= rlValueRepresentation(选项卡) .使用此语法为不需要操作输入的评论家创建表示,例如rlACAgent 或rlPGAgent 代理。
|
代表= rlRepresentation(选项卡) ,选项卡 包含一个q值表,其中包含尽可能多的行和尽可能多的列。
|
代表= rlQValueRepresentation(选项卡,obsInfo actInfo) .使用此语法为同时将观察和操作作为输入的批评家创建单一输出状态-动作值表示,例如rlDQNAgent 或rlDDPGAgent 代理。
|
的一些典型用法如下表所示rlRepresentation
函数来创建使用自定义基函数的批评者和参与者,以及如何使用其中一个新对象来更新代码。在推荐的函数调用中,第一个输入参数是一个包含自定义基函数句柄和初始权重向量或矩阵的两个元素单元格。
自定义基础基于函数的表示:不推荐 |
自定义基础基于函数的表示:推荐 |
代表= rlRepresentation (basisFcn W0 obsInfo) ,其中基函数只有观测值作为输入和W0 是一个列向量。
|
代表= rlValueRepresentation ({basisFcn, W0}, obsInfo) .使用此语法为不需要操作输入的评论家创建表示,例如rlACAgent 或rlPGAgent 代理。
|
代表= rlRepresentation (basisFcn, W0 {obsInfo, actInfo}) ,其中基函数既具有观测值,又具有作为输入和操作的作用W0 是一个列向量。
|
代表= rlQValueRepresentation ({basisFcn, W0}, obsInfo actInfo) .使用此语法为同时将观察和操作作为输入的批评家创建单一输出状态-动作值表示,例如rlDQNAgent 或rlDDPGAgent 代理。
|
代表= rlRepresentation (basisFcn W0、obsInfo actInfo) ,基函数将观察作为输入,将动作作为输出,W0 是矩阵,然后呢actInfo 定义连续的操作空间。
|
代表= rlDeterministicActorRepresentation ({basisFcn, W0}, obsInfo actInfo) .使用此语法为连续操作空间创建确定性参与者表示。
|
代表= rlRepresentation (basisFcn W0、obsInfo actInfo) ,基函数将观察作为输入,将动作作为输出,W0 是矩阵,然后呢actInfo 定义一个离散的动作空间。
|
代表= rlStochasticActorRepresentation ({basisFcn, W0}, obsInfo actInfo) .使用此语法为离散操作空间创建确定性参与者表示。
|