强化学习agent的价值函数批评表示
该对象实现了一个值函数近似剂,以在加强学习代理中用作批评者。值函数是将观察到标量值映射的函数。输出代表代理从给定观察开始时的预期总长期奖励,并采取最佳动作。因此,价值函数批评只需要观察(但不是动作)作为输入。创建一个rlValueRepresentation
批评家,使用它创建依赖于值函数批评家的代理,例如拉卡金特
,rlPGAgent
或RLP发泡剂
。有关此工作流的示例,请参阅创建演员和批评者表示。有关创建表达的详细信息,请参见创建策略和值函数表示.
创建基于属性的值函数批评家
=rlValueRepresentation(___,选择权
)批评家
使用附加选项集选择权
,这是一个rlRepresentationOptions
此语法设置选择权性质批评家
到选择权
输入参数。您可以将此语法与以前的任何输入参数组合一起使用。