主要内容

rlSARSAAgentOptions

SARSA代理的选项

描述

使用一个rlSARSAAgentOptions对象指定用于创建SARSA代理的选项。要创建SARSA代理,请使用rlSARSAAgent

有关SARSA代理的更多信息,请参见撒尔沙代理

有关不同类型的强化学习代理的更多信息,请参见强化学习代理

创建

描述

选择= rlSARSAAgentOptions创建一个rlSARSAAgentOptions对象,在使用所有默认设置创建SARSA代理时用作参数。可以使用点表示法修改对象属性。

例子

选择= rlSARSAAgentOptions (名称,值设置选项属性使用名称-值对。例如,rlSARSAAgentOptions (DiscountFactor, 0.95)创建贴现因子为的选项集0.95.可以指定多个名称-值对。将每个属性名用引号括起来。

属性

全部展开

贪婪探索的选项,指定为EpsilonGreedyExploration对象的以下属性。

财产 描述 默认值
ε 概率阈值可以是随机选择一个动作或选择使状态-动作值函数最大化的动作。较大的值ε意味着代理以更高的速度随机探索操作空间。 1
EpsilonMin 最小值的ε 0.01
EpsilonDecay 衰减率 0.0050

在每个训练时间步长结束时,如果ε大于EpsilonMin,然后使用以下公式进行更新。

ε=ε* (1-EpsilonDecay)

如果您的代理在局部最优上收敛得太快,您可以通过增加代理来促进探索ε

要指定探查选项,请在创建rlSARSAAgentOptions对象选择.例如,将值设为0.9

opt.EpsilonGreedyExploration.Epsilon = 0.9;

试剂的采样时间,指定为正标量。

在一个模型金宝app®环境中,代理被执行SampleTime模拟时间的秒数。

在MATLAB®环境中,每当环境进步时,代理就会被执行。然而,SampleTime返回的输出经验中连续元素之间的时间间隔是多少sim卡火车

贴现因子应用于培训期间的未来奖励,指定为小于或等于1的正标量。

对象的功能

rlSARSAAgent SARSA强化学习代理

例子

全部折叠

这个示例演示如何创建SARSA代理选项对象。

创建一个rlSARSAAgentOptions对象,该对象指定代理示例时间。

选择= rlSARSAAgentOptions (“SampleTime”, 0.5)
EpsilonGreedyExploration: [1x1 rl.option.]采样时间:0.5000折扣系数:0.9900

您可以使用点符号修改选项。例如,将代理折扣因子设置为0.95

opt.DiscountFactor = 0.95;

另请参阅

介绍了R2019a