帮助中心帮助中心
Q学习加强学习代理
Q学习算法是一种无模型的在线,非政策的增强学习方法。Q学习代理是一种基于价值的加强学习代理,它培训评论家以估计回报或将来的回报。
有关Q学习代理的更多信息,请参阅Q学习代理。
有关不同类型的强化学习代理的更多信息,请参见强化学习者。
agent = rlqagent(评论家,代理商)
例子
代理人= rlqagent(评论家,,,,代理)使用指定的评论家网络创建Q学习代理,并设置代理财产。
代理人= rlqagent(评论家,,,,代理)
代理人
评论家
代理
展开全部
rlqvaluefunction
评论家,被指定为rlqvaluefunction目的。有关创建评论家的更多信息,请参阅创建策略和价值功能。
rlqagentoptions
代理选项,指定为rlqagentoptions目的。
UseSplorationPolicy
错误的
真的
选择探索策略时,选择操作(指定为以下逻辑值之一)。
错误的- 选择操作时使用代理贪婪策略。
真的- 选择操作时使用代理探索策略。
观察
此属性仅阅读。
观察规范,指定为强化学习规范对象,定义属性,例如尺寸,数据类型和观察信号名称。
的价值观察匹配在评论家。
ActionInfo
rlfinitesetspec
行动规范,指定为rlfinitesetspec目的。
的价值ActionInfo匹配在评论家。
采样时间
-1
试剂的样本时间,指定为正标量或AS-1。将此参数设置为-1允许基于事件的模拟。的价值采样时间匹配指定的值代理。
在模拟中金宝app®环境,RL代理指定执行代理的块采样时间二秒的模拟时间。如果采样时间是-1,该块从其父母子系统继承了样本时间。
在MATLAB内®环境,每次环境前进时都会执行代理。在这种情况下,采样时间是输出体验中连续元素之间的时间间隔SIM或者火车。如果采样时间是-1,返回的输出体验中连续元素之间的时间间隔反映了触发代理执行的事件的时机。
SIM
火车
getAction
getactor
setActor
GetCritic
setcritic
生成PolicyFunction
全部收缩
创建一个环境接口。对于此示例,使用与示例相同的环境基本网格世界中的火车加固学习代理。
env = rlpredefinedenv(“ Basic Gridworld”);
创建一个源自环境观察和动作规范的表近似模型。
qtable = rltable(...getObservationinfo(env),...getActionInfo(env));
创建评论家QTable。Q代理商使用rlvaluefunction实施评论家的目的。
QTable
rlvaluefunction
评论家= rlqvaluefunction(qtable,...getObservationinfo(env),...getActionInfo(env));
使用指定的评论家创建Q学习代理和一个Epsilon值0.05。
0.05
opt = rlqagentOptions;opt.epsilongreedyexploration.epsilon = 0.05;代理= rlqagent(评论家,选择)
Agent = rlQagent具有属性:代理:[1x1 rl.option.rlqagentoptions] useExplorationPolicy:0观察力:[1x1 rl.util.rlfinitesetsetspec] ActionInfo:
要检查您的代理,请使用GetAction从随机观察中返回操作。
getAction(代理,{randi(25)})
ans =1x1单元格数组{[1]}
您现在可以测试和训练代理商针对环境。
Sie HabenEineGeänderte版本死亡。möchtensie dieses beispiel mit ihrenänderungenÖffnen?
Sie Haben Auf Einen Link Geklickt,der Diesem matlab-befehl ientspricht:
führensie den befehl durch eingabe在das matlab-befehlsfenster aus中。webbrowserunterstützenkeine matlab-befehle。
选择一个网站以获取可用的翻译内容,并查看本地事件和优惠。根据您的位置,我们建议您选择:。
您还可以从以下列表中选择一个网站:
选择中国网站(中文或英语)以获得最佳场地性能。其他Mathworks乡村网站未针对您所在的访问进行优化。
联系您当地的办公室