主要内容

rlQAgent

Q-学习强化学习agent

描述

Q-learning算法是一种无模型、在线、非策略强化学习方法。Q-learning agent是一种基于价值的强化学习agent,它训练批评家估计回报或未来回报。

有关Q-learning Agent的更多信息,请参阅Q-学习代理.

有关不同类型的强化学习代理的更多信息,请参阅强化学习代理.

创造

描述

实例

代理人=rlQAgent(批评家,代理)创建具有指定批判网络的q -学习代理,并设置代理所有物

输入参数

全部展开

评论家网络表示,指定为rlQValueRepresentation对象有关创建批评家表达的详细信息,请参见创建策略和值函数表示.

性质

全部展开

代理选项,指定为rlQAgentOptions对象

目标函数

火车 在特定环境中培训强化学习代理
模拟 在指定环境中模拟经过培训的强化学习代理
getAction 从给定环境观察的代理或参与者表示中获取操作
getActor 从强化学习代理获取参与者表示
设置器 强化学习agent的集参与者表示
Get批评家 从强化学习代理获取批评表示
赛特评论家 强化学习agent的集批评表示
生成策略函数 创建评估强化学习代理的训练策略的函数

例子

全部崩溃

创建一个环境接口。

env=rlPredefinedEnv(“基本世界”);

使用从环境观察和行动规范派生的Q表创建批评家Q值函数表示。

qTable=rlTable(getObservationInfo(env)、getActionInfo(env));critic=rlQValueRepresentation(qTable、getObservationInfo(env)、getActionInfo(env));

使用指定的临界值函数和ε值创建Q-learning代理0.05.

opt=rlQAgentOptions;opt.epsilongreedexploration.Epsilon=0.05;代理=rlQAgent(批评家,选择)
agent=rlQAgent,属性为:AgentOptions:[1x1 rl.option.rlQAgentOptions]

要检查代理,请使用getAction从随机观察返回操作。

getAction(代理,{randi(25)})
ans=1

现在可以针对环境测试和培训代理。

在R2019a中引入