离散作用空间Q值函数表示的最大状态值函数估计
[
返回Q值函数表示的最大估计状态值函数马克斯
,maxActionIndex
]=getMaxQValue(qValueRep
,obs
)qValueRep
给定环境观测值obs
.getMaxQValue
确定Q值估计值最大的离散动作,并返回该Q值(马克斯
)以及相应的行动指标(maxActionIndex
).
[
返回表示的状态。在马克斯
,maxActionIndex
,状态
]=getMaxQValue(___)qValueRep
是一种递归神经网络。