主要内容

rlQAgentOptions

选择q学习的代理

描述

使用一个rlQAgentOptions对象创建q学习代理指定的选项。创建一个q学习代理,使用rlQAgent

在q学习代理的更多信息,见q学习的代理

更多信息在不同类型的强化学习代理,看看强化学习代理

创建

描述

选择= rlQAgentOptions创建一个rlQAgentOptions对象用于创建q学习代理时作为参数使用默认设置。您可以修改对象属性使用点符号。

选择= rlQAgentOptions (名称,值)设置选项属性使用名称-值对。例如,rlQAgentOptions (DiscountFactor, 0.95)创建一个选项设定的折现系数0.95。您可以指定多个名称-值对。在报价附上每个属性的名字。

属性

全部展开

选择epsilon-greedy探索,指定为一个EpsilonGreedyExploration具有以下属性的对象。

财产 描述 默认值
ε 概率阈值随机选择一个行动或选择最大化的行动政府行动的价值功能。更大的价值ε意味着代理随机探索行动空间以更高的速度。 1
EpsilonMin 最小值的ε 0.01
EpsilonDecay 衰减率 0.0050

在每个培训时间步,如果ε大于EpsilonMin更新,那么使用以下公式。

ε=ε* (1-EpsilonDecay)

如果你的代理在当地最适条件收敛过快,可以促进剂探索通过增加ε

指定选项,探索创建后使用点符号rlQAgentOptions对象选择。例如,设置ε值0.9

opt.EpsilonGreedyExploration。ε= 0.9;

评论家优化选项,指定为一个rlOptimizerOptions对象。它允许您指定训练参数的评论家接近者,如学习速率梯度阈值,以及优化算法及其参数。有关更多信息,请参见rlOptimizerOptionsrlOptimizer

样本代理的时候,作为一个积极的标量或指定1。设置这个参数1支持基于事件的模拟。

在一个模型金宝app®环境中,RL代理块中执行每一个指定的代理SampleTime秒的仿真时间。如果SampleTime1块继承了样本时间从母公司子系统。

在MATLAB®环境中,代理执行每一次进步的环境。在这种情况下,SampleTime之间的时间间隔连续元素返回的输出的经验吗sim卡火车。如果SampleTime1之间的时间间隔连续元素返回的输出经验反映了事件触发代理执行的时机。

折现系数应用于未来的回报在训练,指定为一个积极的标量小于或等于1。

对象的功能

rlQAgent q学习的强化学习代理

例子

全部折叠

这个例子展示了如何创建一个选择对象的q学习的代理。

创建一个rlQAgentOptions对象,该对象指定代理样品时间。

选择= rlQAgentOptions (“SampleTime”,0.5)
选择= rlQAgentOptions属性:EpsilonGreedyExploration: [1 x1 rl.option。EpsilonGreedyExploration] CriticOptimizerOptions: [1 x1 rl.option。rlOptimizerOptions] SampleTime: 0.5000 DiscountFactor: 0.9900 InfoToSave: [1x1 struct]

您可以修改选项使用点符号。例如,设置代理贴现因子0.95

opt.DiscountFactor = 0.95;

版本历史

介绍了R2019a

另请参阅