rlSARSAAgent

SARSA强化学习代理

全部展开页面

描述

SARSA算法是一种无模型、在线、基于策略的强化学习方法。SARSA代理是一种基于价值的强化学习代理，它训练批评家估计回报或未来的回报。

有关SARSA代理的更多信息，请参见撒尔沙代理．

有关不同类型的强化学习代理的更多信息，请参见强化学习代理．

创建

语法

代理= rlSARSAAgent(评论家,agentOptions)

描述

例子

代理= rlSARSAAgent (评论家，agentOptions）创建具有指定临界网络的SARSA代理并将AgentOptions财产。

输入参数

全部展开

`评论家`- - - - - -评论家表示网络
`rlQValueRepresentation`对象

评论网络表示，指定为rlQValueRepresentation对象。有关创建评论家表示的更多信息，请参见创建策略和价值功能表示．

属性

全部展开

`AgentOptions`- - - - - -剂的选择
`rlSARSAAgentOptions`对象

代理选项，指定为rlSARSAAgentOptions对象。

对象的功能

`火车`	在指定的环境中训练强化学习代理
`sim卡`	在指定的环境中模拟训练过的强化学习代理
`getAction`	根据环境观察，从行为者或行动者的表现中获得行动
`getActor`	从强化学习代理中获得角色表示
`setActor`	设置强化学习主体的主体表示
`getCritic`	从强化学习代理获得批判表示
`setCritic`	集合强化学习代理的批判表示
`generatePolicyFunction`	创建评估强化学习代理的训练策略的函数

例子

全部折叠

创建SARSA代理

打开生活的脚本

创建或加载环境接口。对于本例，请加载基本网格世界环境接口。

env = rlPredefinedEnv (“BasicGridWorld”)；

使用来自环境观察和行动规范的Q表创建一个评价价值函数表示。

qTable = rlTable (getObservationInfo (env) getActionInfo (env));评论家= rlQValueRepresentation (qTable getObservationInfo (env) getActionInfo (env));

使用指定的临界值函数和的值创建SARSA代理0．05．

选择= rlSARSAAgentOptions;opt.EpsilonGreedyExploration.Epsilon = 0.05;代理= rlSARSAAgent(评论家,选择)

agent = rlSARSAAgent with properties: AgentOptions: [1x1 rl.option.rlSARSAAgentOptions]

要检查代理，请使用getAction从随机观察返回操作。

getAction(代理,{兰迪(25)})

ans = 1

现在可以根据环境测试和培训代理。

另请参阅

rlSARSAAgentOptions

主题

介绍了R2019a

强化学习工具箱文档

金宝app

强化学习与MATLAB和Simulink金宝app

下载电子书