getMaxQValue
获得最大估计价值在所有可能的行动从核反应能量函数评论家与离散的行动空间,鉴于环境观测
语法
描述
(
评估discrete-action-space核反应能量函数评论家maxQ
,maxActionIndex
)= getMaxQValue (qValueFcnObj
,奥林匹克广播服务公司
)qValueFcnObj
并返回的最大估计价值在所有可能的行动maxQ
指数,与相应的行动maxActionIndex
,因为环境的观察奥林匹克广播服务公司
。
(
还返回更新后的状态maxQ
,maxActionIndex
,状态
)= getMaxQValue (___)qValueFcnObj
当它包含一个递归神经网络。