rlQAgentOptions

q -学习代理的选项

全部展开页面

描述

使用一个rlQAgentOptions对象指定创建q -学习代理的选项。要创建q学习代理，请使用rlQAgent

有关Q-learning agents的更多信息，请参见q学习的代理．

有关不同类型的强化学习代理的更多信息，请参见强化学习代理．

创建

语法

选择= rlQAgentOptions

选择= rlQAgentOptions(名称、值)

描述

选择= rlQAgentOptions创建一个rlQAgentOptions对象，在使用所有默认设置创建Q-learning代理时用作参数。可以使用点表示法修改对象属性。

选择= rlQAgentOptions (名称,值）设置选项属性使用名称-值对。例如,rlQAgentOptions (DiscountFactor, 0.95)创建贴现因子为的选项集0.95．可以指定多个名称-值对。将每个属性名用引号括起来。

属性

全部展开

`EpsilonGreedyExploration`- - - - - -贪心探索的选项
`EpsilonGreedyExploration`对象

贪婪探索的选项，指定为EpsilonGreedyExploration对象的以下属性。

财产	描述	默认值
`ε`	概率阈值可以是随机选择一个动作或选择使状态-动作值函数最大化的动作。较大的值`ε`意味着代理以更高的速度随机探索操作空间。	`1`
`EpsilonMin`	最小值的`ε`	`０．０１`
`EpsilonDecay`	衰减率	`0.0050`

在每个训练时间步长结束时，如果ε大于EpsilonMin，然后使用以下公式进行更新。

ε=ε* (1-EpsilonDecay)

如果您的代理在局部最优上收敛得太快，您可以通过增加代理来促进探索ε．

要指定探查选项，请在创建rlQAgentOptions对象选择．例如，将值设为0．9．

opt.EpsilonGreedyExploration.Epsilon = 0.9;

`SampleTime`- - - - - -药剂取样时间
`1`(默认)|积极的标量

试剂的采样时间，指定为正标量。

在一个模型金宝app^®环境中，代理被执行SampleTime模拟时间的秒数。

在MATLAB^®环境中，每当环境进步时，代理就会被执行。然而,SampleTime返回的输出经验中连续元素之间的时间间隔是多少sim卡或火车．

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|小于等于1的正标量

贴现因子应用于培训期间的未来奖励，指定为小于或等于1的正标量。

对象的功能

rlQAgent Q-learning强化学习代理

例子

全部折叠

创建Q-Learning Agent Options对象

打开生活的脚本

这个例子展示了如何为Q-Learning代理创建一个options对象。

创建一个rlQAgentOptions对象，该对象指定代理示例时间。

选择= rlQAgentOptions (“SampleTime”, 0.5)

EpsilonGreedyExploration: [1x1 rl.option.]采样时间:0.5000折扣系数:0.9900

您可以使用点符号修改选项。例如，将代理折扣因子设置为0.95．

opt.DiscountFactor = 0.95;

另请参阅

主题

q学习的代理

介绍了R2019a

强化学习工具箱文档

金宝app

强化学习与MATLAB和Simulink金宝app

下载电子书