rlqagent

Q学习加强学习代理

在页面中扩展全部

描述

Q学习算法是一种无模型的在线，非政策的增强学习方法。Q学习代理是一种基于价值的加强学习代理，它培训评论家以估计回报或将来的回报。

有关Q学习代理的更多信息，请参阅Q学习代理。

有关不同类型的强化学习代理的更多信息，请参见强化学习者。

创建

句法

agent = rlqagent（评论家，代理商）

描述

例子

代理人= rlqagent（评论家，，，，代理）使用指定的评论家网络创建Q学习代理，并设置代理财产。

输入参数

展开全部

`评论家`-评论家
`rlqvaluefunction`目的

评论家，被指定为rlqvaluefunction目的。有关创建评论家的更多信息，请参阅创建策略和价值功能。

特性

展开全部

`代理`-代理选项
`rlqagentoptions`目的

代理选项，指定为rlqagentoptions目的。

`UseSplorationPolicy`-使用勘探政策的选项
`错误的`（默认）|`真的`

选择探索策略时，选择操作（指定为以下逻辑值之一）。

错误的- 选择操作时使用代理贪婪策略。
真的- 选择操作时使用代理探索策略。

`观察`-观察规范
规范对象

此属性仅阅读。

观察规范，指定为强化学习规范对象，定义属性，例如尺寸，数据类型和观察信号名称。

的价值观察匹配在评论家。

`ActionInfo`-动作规范
`rlfinitesetspec`目的

此属性仅阅读。

行动规范，指定为rlfinitesetspec目的。

的价值ActionInfo匹配在评论家。

`采样时间`-剂的样本时间
正标量|`-1`

试剂的样本时间，指定为正标量或AS-1。将此参数设置为-1允许基于事件的模拟。的价值采样时间匹配指定的值代理。

在模拟中金宝app^®环境，RL代理指定执行代理的块采样时间二秒的模拟时间。如果采样时间是-1，该块从其父母子系统继承了样本时间。

在MATLAB内^®环境，每次环境前进时都会执行代理。在这种情况下，采样时间是输出体验中连续元素之间的时间间隔SIM或者火车。如果采样时间是-1，返回的输出体验中连续元素之间的时间间隔反映了触发代理执行的事件的时机。

对象功能

`火车`	在指定环境中训练加固学习代理
`SIM`	在指定环境中模拟训练有素的加固学习剂
`getAction`	给定环境观察的代理商或演员采取行动
`getactor`	从强化学习者那里获得演员
`setActor`	加固学习代理人的演员
`GetCritic`	从加强学习者那里获取评论家
`setcritic`	设定加强学习者的批评家
`生成PolicyFunction`	创建评估训练有素的强化学习代理政策的功能

例子

全部收缩

创建Q学习代理

打开实时脚本

创建一个环境接口。对于此示例，使用与示例相同的环境基本网格世界中的火车加固学习代理。

env = rlpredefinedenv（“ Basic Gridworld”）；

创建一个源自环境观察和动作规范的表近似模型。

qtable = rltable（...getObservationinfo（env），...getActionInfo（env））;

创建评论家QTable。Q代理商使用rlvaluefunction实施评论家的目的。

评论家= rlqvaluefunction（qtable，...getObservationinfo（env），...getActionInfo（env））;

使用指定的评论家创建Q学习代理和一个Epsilon值0.05。

opt = rlqagentOptions;opt.epsilongreedyexploration.epsilon = 0.05;代理= rlqagent（评论家，选择）

Agent = rlQagent具有属性：代理：[1x1 rl.option.rlqagentoptions] useExplorationPolicy：0观察力：[1x1 rl.util.rlfinitesetsetspec] ActionInfo：

要检查您的代理，请使用GetAction从随机观察中返回操作。

getAction（代理，{randi（25）}）

ans =1x1单元格数组{[1]}

您现在可以测试和训练代理商针对环境。

版本历史记录

在R2019a中引入

也可以看看

职能

rlqagentoptions|rlqvaluefunction

rlqagent

描述

创建

句法

描述

输入参数

评论家-评论家rlqvaluefunction目的

特性

代理-代理选项rlqagentoptions目的

UseSplorationPolicy-使用勘探政策的选项错误的（默认）|真的

观察-观察规范规范对象

ActionInfo-动作规范rlfinitesetspec目的

采样时间-剂的样本时间正标量|-1