获取估计值函数表示
返回多个Q值函数表示的估计的状态动作值函数价值
= getValue(qvaluerep.
那obs.
)qvaluerep.
给定环境观察obs.
。在这种情况下,qvaluerep.
具有多种输出,因为有可能的离散动作,以及GetValue.
返回每个操作的状态值函数。
返回单输出Q值函数表示的估计状态操作值函数价值
= getValue(qvaluerep.
那obs.
那行为
)qvaluerep.
给定环境观察obs.
和行动行为
。在这种情况下,GetValue.
返回给定观察和操作输入的状态值函数。
[
返回表示的状态。使用此语法何时价值
那状态
] = getValue(___)valuerep.
或者qvaluerep.
是一种经常性的神经网络。