文档帮助中心文档
Q-学习强化学习agent
Q-learning算法是一种无模型、在线、非策略强化学习方法。Q-learning agent是一种基于价值的强化学习agent,它训练批评家估计回报或未来回报。
有关Q-learning Agent的更多信息,请参阅Q-学习代理.
有关不同类型的强化学习代理的更多信息,请参阅强化学习代理.
代理=rlQAgent(评论家、代理)
实例
代理人=rlQAgent(批评家,代理)创建具有指定批判网络的q -学习代理,并设置代理所有物
代理人=rlQAgent(批评家,代理)
代理人
批评家
代理
全部展开
rlQValueRepresentation
评论家网络表示,指定为rlQValueRepresentation对象有关创建批评家表达的详细信息,请参见创建策略和值函数表示.
rlQAgentOptions
代理选项,指定为rlQAgentOptions对象
火车
模拟
getAction
getActor
设置器
Get批评家
赛特评论家
生成策略函数
全部崩溃
创建一个环境接口。
env=rlPredefinedEnv(“基本世界”);
使用从环境观察和行动规范派生的Q表创建批评家Q值函数表示。
qTable=rlTable(getObservationInfo(env)、getActionInfo(env));critic=rlQValueRepresentation(qTable、getObservationInfo(env)、getActionInfo(env));
使用指定的临界值函数和ε值创建Q-learning代理0.05.
0.05
opt=rlQAgentOptions;opt.epsilongreedexploration.Epsilon=0.05;代理=rlQAgent(批评家,选择)
agent=rlQAgent,属性为:AgentOptions:[1x1 rl.option.rlQAgentOptions]
要检查代理,请使用getAction从随机观察返回操作。
getAction(代理,{randi(25)})
ans=1
现在可以针对环境测试和培训代理。
您拥有此示例的修改版本。是否要用编辑打开此示例?
您单击了与此MATLAB命令对应的链接:
通过在MATLAB命令窗口中输入命令来运行该命令。Web浏览器不支持MATLAB命令。金宝app
选择一个网站以获取翻译后的内容(如果可用),并查看本地活动和优惠。根据您的位置,我们建议您选择:.
您还可以从以下列表中选择网站:
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家/地区网站未针对您所在地的访问进行优化。
联系当地办事处