rlQAgent

Q-学习强化学习agent

在第页中展开全部

描述

Q-learning算法是一种无模型、在线、非策略强化学习方法。Q-learning agent是一种基于价值的强化学习agent，它训练批评家估计回报或未来回报。

有关Q-learning Agent的更多信息，请参阅Q-学习代理.

有关不同类型的强化学习代理的更多信息，请参阅强化学习代理.

创造

语法

代理=rlQAgent（评论家、代理）

描述

实例

代理人=rlQAgent(批评家,代理)创建具有指定批判网络的q -学习代理，并设置代理所有物

输入参数

全部展开

`批评家`—评论家表示网络
`rlQValueRepresentation`对象

评论家网络表示，指定为rlQValueRepresentation对象有关创建批评家表达的详细信息，请参见创建策略和值函数表示.

性质

全部展开

`代理`—代理选项
`rlQAgentOptions`对象

代理选项，指定为rlQAgentOptions对象

目标函数

`火车`	在特定环境中培训强化学习代理
`模拟`	在指定环境中模拟经过培训的强化学习代理
`getAction`	从给定环境观察的代理或参与者表示中获取操作
`getActor`	从强化学习代理获取参与者表示
`设置器`	强化学习agent的集参与者表示
`Get批评家`	从强化学习代理获取批评表示
`赛特评论家`	强化学习agent的集批评表示
`生成策略函数`	创建评估强化学习代理的训练策略的函数

例子

全部崩溃

创建一个Q学习代理

打开实时脚本

创建一个环境接口。

env=rlPredefinedEnv(“基本世界”);

使用从环境观察和行动规范派生的Q表创建批评家Q值函数表示。

qTable=rlTable（getObservationInfo（env）、getActionInfo（env））；critic=rlQValueRepresentation（qTable、getObservationInfo（env）、getActionInfo（env））；

使用指定的临界值函数和ε值创建Q-learning代理0.05.

opt=rlQAgentOptions；opt.epsilongreedexploration.Epsilon=0.05；代理=rlQAgent（批评家，选择）

agent=rlQAgent，属性为：AgentOptions:[1x1 rl.option.rlQAgentOptions]

要检查代理，请使用getAction从随机观察返回操作。

getAction（代理，{randi（25）}）

ans=1

现在可以针对环境测试和培训代理。

另见

功能

rlQAgentOptions

话题

在R2019a中引入

强化学习工具箱文档

金宝app

基于MATLAB和Simulink的强化学习金宝app

下载电子书