文档帮助中心文档
SARSA强化学习代理
SARSA算法是一种无模型、在线、基于策略的强化学习方法。SARSA代理是一种基于价值的强化学习代理,它训练批评家估计回报或未来的回报。
有关SARSA代理的更多信息,请参见撒尔沙代理.
有关不同类型的强化学习代理的更多信息,请参见强化学习代理.
代理= rlSARSAAgent(评论家,agentOptions)
例子
代理= rlSARSAAgent (评论家,agentOptions)创建具有指定临界网络的SARSA代理并将AgentOptions财产。
代理= rlSARSAAgent (评论家,agentOptions)
代理
评论家
agentOptions
AgentOptions
全部展开
rlQValueRepresentation
评论网络表示,指定为rlQValueRepresentation对象。有关创建评论家表示的更多信息,请参见创建策略和价值功能表示.
rlSARSAAgentOptions
代理选项,指定为rlSARSAAgentOptions对象。
火车
sim卡
getAction
getActor
setActor
getCritic
setCritic
generatePolicyFunction
全部折叠
创建或加载环境接口。对于本例,请加载基本网格世界环境接口。
env = rlPredefinedEnv (“BasicGridWorld”);
使用来自环境观察和行动规范的Q表创建一个评价价值函数表示。
qTable = rlTable (getObservationInfo (env) getActionInfo (env));评论家= rlQValueRepresentation (qTable getObservationInfo (env) getActionInfo (env));
使用指定的临界值函数和的值创建SARSA代理0.05.
0.05
选择= rlSARSAAgentOptions;opt.EpsilonGreedyExploration.Epsilon = 0.05;代理= rlSARSAAgent(评论家,选择)
agent = rlSARSAAgent with properties: AgentOptions: [1x1 rl.option.rlSARSAAgentOptions]
要检查代理,请使用getAction从随机观察返回操作。
getAction(代理,{兰迪(25)})
ans = 1
现在可以根据环境测试和培训代理。
您有这个示例的修改版本。您想打开这个示例与您的编辑吗?
你点击一个链接对应于这个MATLAB命令:
通过在MATLAB命令窗口中输入命令来运行命令。Web浏览器不支持MATLAB命令。金宝app
选择一个网站,在那里获得翻译的内容,并看到当地的活动和优惠。根据您的位置,我们建议您选择:.
你也可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。
与当地办事处联系