文档帮助中心文档
SARSA代理的选项
使用一个rlSARSAAgentOptions对象指定用于创建SARSA代理的选项。要创建SARSA代理,请使用rlSARSAAgent
rlSARSAAgentOptions
rlSARSAAgent
有关SARSA代理的更多信息,请参见撒尔沙代理.
有关不同类型的强化学习代理的更多信息,请参见强化学习代理.
选择= rlSARSAAgentOptions
选择= rlSARSAAgentOptions(名称、值)
选择= rlSARSAAgentOptions创建一个rlSARSAAgentOptions对象,在使用所有默认设置创建SARSA代理时用作参数。可以使用点表示法修改对象属性。
选择
例子
选择= rlSARSAAgentOptions (名称,值)设置选项属性使用名称-值对。例如,rlSARSAAgentOptions (DiscountFactor, 0.95)创建贴现因子为的选项集0.95.可以指定多个名称-值对。将每个属性名用引号括起来。
选择= rlSARSAAgentOptions (名称,值)
名称,值
rlSARSAAgentOptions (DiscountFactor, 0.95)
0.95
全部展开
EpsilonGreedyExploration
贪婪探索的选项,指定为EpsilonGreedyExploration对象的以下属性。
ε
1
EpsilonMin
0.01
EpsilonDecay
0.0050
在每个训练时间步长结束时,如果ε大于EpsilonMin,然后使用以下公式进行更新。
ε=ε* (1-EpsilonDecay)
如果您的代理在局部最优上收敛得太快,您可以通过增加代理来促进探索ε.
要指定探查选项,请在创建rlSARSAAgentOptions对象选择.例如,将值设为0.9.
0.9
opt.EpsilonGreedyExploration.Epsilon = 0.9;
SampleTime
试剂的采样时间,指定为正标量。
在一个模型金宝app®环境中,代理被执行SampleTime模拟时间的秒数。
在MATLAB®环境中,每当环境进步时,代理就会被执行。然而,SampleTime返回的输出经验中连续元素之间的时间间隔是多少sim卡或火车.
sim卡
火车
DiscountFactor
0.99
贴现因子应用于培训期间的未来奖励,指定为小于或等于1的正标量。
全部折叠
这个示例演示如何创建SARSA代理选项对象。
创建一个rlSARSAAgentOptions对象,该对象指定代理示例时间。
选择= rlSARSAAgentOptions (“SampleTime”, 0.5)
EpsilonGreedyExploration: [1x1 rl.option.]采样时间:0.5000折扣系数:0.9900
您可以使用点符号修改选项。例如,将代理折扣因子设置为0.95.
opt.DiscountFactor = 0.95;
您有这个示例的修改版本。您想打开这个示例与您的编辑吗?
你点击一个链接对应于这个MATLAB命令:
通过在MATLAB命令窗口中输入命令来运行命令。Web浏览器不支持MATLAB命令。金宝app
选择一个网站,在那里获得翻译的内容,并看到当地的活动和优惠。根据您的位置,我们建议您选择:.
你也可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。
与当地办事处联系