主要内容

rlQAgentOptions

Q-learning代理的选择

描述

使用rlQAgentOptions对象指定用于创建Q-learning agent的选项。若要创建Q-learning agent,请使用rlQAgent

有关Q-learning Agent的更多信息,请参阅Q-学习代理.

有关不同类型的强化学习代理的更多信息,请参阅强化学习代理.

创造

描述

选择=rlQAgentOptions创建一个rlQAgentOptions对象,在使用所有默认设置创建Q-learning代理时用作参数。您可以使用点表示法修改对象属性。

选择=rlQAgentOptions(名称、值)设置选项属性使用名称-值对。例如,rlQAgentOptions('DiscountFactor',0.95)创建折扣系数为的选项集0.95. 可以指定多个名称-值对。用引号将每个属性名称括起来。

性质

全部展开

epsilon贪婪探索的选项,指定为epsilongreedexploration对象具有以下属性。

所有物 描述 默认值
ε 随机选择动作或选择使状态动作值函数最大化的动作的概率阈值ε意味着代理以更高的速率随机探索动作空间。 1.
EpsilonMin 最小值ε 0.01
ε 衰变率 0.0050

在每个训练时间步结束时,如果ε大于EpsilonMin,然后使用以下公式进行更新。

ε=ε*(1-ε)

如果您的代理过于快速地收敛于局部最优解,您可以通过增加ε.

要指定探索选项,请在创建rlQAgentOptions对象选择. 例如,将ε值设置为0.9.

opt.epsilongreedexploration.Epsilon=0.9;

代理的采样时间,指定为正标量。

在Simulink金宝app中®环境中,代理将在每个取样时间秒的模拟时间。

在MATLAB®环境中,每当环境进步时,代理就会被执行。然而,取样时间返回的输出经验中连续元素之间的时间间隔是多少模拟火车.

用于培训期间未来奖励的贴现因子,指定为小于或等于1的正标量。

目标函数

rlQAgent Q-学习强化学习agent

例子

全部崩溃

此示例演示如何为Q-Learning代理创建选项对象。

创建一个rlQAgentOptions对象,该对象指定代理采样时间。

opt=rlQAgentOptions(“采样时间”,0.5)
opt=rlQAgentOptions,属性为:epsilongreedExploration:[1x1 rl.option.epsilongreedExploration]采样时间:0.5000折扣因子:0.9900

您可以使用点符号修改选项。例如,将代理折扣系数设置为0.95.

opt.depresentfactor=0.95;

另见

在R2019a中引入