从代理商或演员代表获取行动给定环境观察
返回从给定环境观察的强化学习代理的策略中得到的动作。agentAction
= GetAction(代理人
那obs.
的)
返回从策略表示派生的操作actorAction
= GetAction(actorRep
那obs.
的)actorRep
鉴于环境观测obs.
。
[
当Actor使用经常性神经网络作为函数近似器时,返回演员表示的更新状态。actorAction
那下持久
) = getAction (actorRep
那obs.
的)