主要内容

rlQAgent

Q-learning强化学习代理

描述

Q-learning算法是一种无模型、在线、非策略强化学习方法。q -学习代理是一种基于价值的强化学习代理,它训练批评者估计回报或未来的回报。

有关Q-learning agents的更多信息,请参见q学习的代理

有关不同类型的强化学习代理的更多信息,请参见强化学习代理

创建

描述

例子

代理= rlQAgent (评论家agentOptions创建具有指定批判网络的q -学习代理,并设置AgentOptions财产。

输入参数

全部展开

评论网络表示,指定为rlQValueRepresentation对象。有关创建评论家表示的更多信息,请参见创建策略和价值功能表示

属性

全部展开

代理选项,指定为rlQAgentOptions对象。

对象的功能

火车 在指定的环境中训练强化学习代理
sim卡 在指定的环境中模拟训练过的强化学习代理
getAction 根据环境观察,从行为者或行动者的表现中获得行动
getActor 从强化学习代理中获得角色表示
setActor 设置强化学习主体的主体表示
getCritic 从强化学习代理获得批判表示
setCritic 集合强化学习代理的批判表示
generatePolicyFunction 创建评估强化学习代理的训练策略的函数

例子

全部折叠

创建环境接口。

env = rlPredefinedEnv (“BasicGridWorld”);

使用来自环境观察和行动规范的q表,创建一个评价q值函数表示。

qTable = rlTable (getObservationInfo (env) getActionInfo (env));评论家= rlQValueRepresentation (qTable getObservationInfo (env) getActionInfo (env));

使用指定的评价值函数和的值创建q -学习代理0.05

选择= rlQAgentOptions;opt.EpsilonGreedyExploration.Epsilon = 0.05;代理= rlQAgent(评论家,选择)
agent = rlQAgent with properties: AgentOptions: [1x1 rl.option.rlQAgentOptions]

要检查代理,请使用getAction从随机观察返回操作。

getAction(代理,{兰迪(25)})
ans = 1

现在可以根据环境测试和培训代理。

介绍了R2019a