强化学习主体的价值函数批判表示
该对象实现了一个值函数近似器,用于强化学习代理内的评价。值函数是将观测值映射到标量值的函数。输出表示当代理从给定的观察开始并采取可能的最佳行动时,所期望的总长期回报。因此,价值功能评论家只需要观察(而不是行动)作为输入。在创建rlValueRepresentation
批评者,用它来创建依赖价值函数评论家的代理人,例如rlACAgent
那rlPGAgent
,或rlppoagent.
.有关此工作流程的示例,请参阅创造演员和评论家代表.有关创建表示的更多信息,请参见创建策略和价值功能表示.
创建基于的值函数评论家
= rlvaluerepresentation(净
那observationInfo
“观察”,obsName
)评论家
从深度神经网络净
.此语法设置了ObservationInfo财产评论家
输入observationInfo
.obsName
的输入层的名称净
.
创建基于的值函数评论家
= rlvaluerepresentation(选项卡
那observationInfo
)评论家
与一个离散观测空间,从值表选项卡
,这是一个rlTable
包含列数组的对象,具有尽可能多的元素作为可能的观察。此语法设置了ObservationInfo财产评论家
输入observationInfo
.
创建基于的值函数评论家
= rlValueRepresentation ({basisFcn
那W0
},observationInfo
)评论家
使用自定义基函数作为底层近似器。第一个输入参数是一个双元素单元,其中第一个元素包含句柄basisFcn
到自定义基本函数,第二个元素包含初始权重向量W0
.此语法设置了ObservationInfo财产评论家
输入observationInfo
.
创建基于的值函数评论家
= rlvaluerepresentation(___那选项
)评论家
使用附加选项集选项
,这是一个rlrepresentationOptions.
对象。此语法设置了选项财产评论家
到选项
输入参数。您可以将此语法与前面的任何输入参数组合一起使用。
rlACAgent |
演员 - 评论家强化学习代理 |
rlPGAgent |
政策梯度强化学习代理 |
rlppoagent. |
近端政策优化强化学习代理 |
getValue |
获得估计值函数表示 |