主要内容

rlQAgentOptions

q -学习代理的选项

描述

使用一个rlQAgentOptions对象指定创建q -学习代理的选项。要创建q学习代理,请使用rlQAgent

有关Q-learning agents的更多信息,请参见q学习的代理

有关不同类型的强化学习代理的更多信息,请参见强化学习代理

创建

描述

选择= rlQAgentOptions创建一个rlQAgentOptions对象,在使用所有默认设置创建Q-learning代理时用作参数。可以使用点表示法修改对象属性。

选择= rlQAgentOptions (名称,值设置选项属性使用名称-值对。例如,rlQAgentOptions (DiscountFactor, 0.95)创建贴现因子为的选项集0.95.可以指定多个名称-值对。将每个属性名用引号括起来。

属性

全部展开

贪婪探索的选项,指定为EpsilonGreedyExploration对象的以下属性。

财产 描述 默认值
ε 概率阈值可以是随机选择一个动作或选择使状态-动作值函数最大化的动作。较大的值ε意味着代理以更高的速度随机探索操作空间。 1
EpsilonMin 最小值的ε 0.01
EpsilonDecay 衰减率 0.0050

在每个训练时间步长结束时,如果ε大于EpsilonMin,然后使用以下公式进行更新。

ε=ε* (1-EpsilonDecay)

如果您的代理在局部最优上收敛得太快,您可以通过增加代理来促进探索ε

要指定探查选项,请在创建rlQAgentOptions对象选择.例如,将值设为0.9

opt.EpsilonGreedyExploration.Epsilon = 0.9;

试剂的采样时间,指定为正标量。

在一个模型金宝app®环境中,代理被执行SampleTime模拟时间的秒数。

在MATLAB®环境中,每当环境进步时,代理就会被执行。然而,SampleTime返回的输出经验中连续元素之间的时间间隔是多少sim卡火车

贴现因子应用于培训期间的未来奖励,指定为小于或等于1的正标量。

对象的功能

rlQAgent Q-learning强化学习代理

例子

全部折叠

这个例子展示了如何为Q-Learning代理创建一个options对象。

创建一个rlQAgentOptions对象,该对象指定代理示例时间。

选择= rlQAgentOptions (“SampleTime”, 0.5)
EpsilonGreedyExploration: [1x1 rl.option.]采样时间:0.5000折扣系数:0.9900

您可以使用点符号修改选项。例如,将代理折扣因子设置为0.95

opt.DiscountFactor = 0.95;

另请参阅

介绍了R2019a