获得估计值函数表示
返回状态值函数表示的估计值函数价值
= getValue (valueRep
,奥林匹克广播服务公司
)valueRep
鉴于环境观测奥林匹克广播服务公司
.
返回多个q值函数表示的估计状态-动作值函数价值
= getValue (qValueRep
,奥林匹克广播服务公司
)qValueRep
鉴于环境观测奥林匹克广播服务公司
.在这种情况下,qValueRep
具有与可能的离散动作相同的输出,并且getValue
为每个操作返回状态值函数。
返回单输出q值函数表示的估计状态-动作值函数价值
= getValue (qValueRep
,奥林匹克广播服务公司
,行为
)qValueRep
鉴于环境观测奥林匹克广播服务公司
和行动行为
.在这种情况下,getValue
为给定的观察和操作输入返回状态值函数。