主要内容

rldqnagentoptions.

DQN代理的选项

描述

使用一个rldqnagentoptions.对象以指定Deep Q-Network(DQN)代理的选项。要创建DQN代理,请使用rldqnagent.

有关更多信息,请参见深Q-Network代理

有关不同类型的强化学习代理的更多信息,请参见加固学习代理人

创建

描述

选择= rlDQNAgentOptions在使用所有默认设置创建DQN代理时,创建一个选项对象作为参数使用。您可以使用点表示法修改对象属性。

例子

选择= RLDQNAGENTOPTIONS(名称,价值)设置选项特性使用名称-值对。例如,rlDQNAgentOptions (DiscountFactor, 0.95)创建一个选项设置,折扣系数0.95。可以指定多个名称-值对。用引号括起每个属性名。

属性

全部展开

标志,用于对值函数目标更新使用double DQN,指定为逻辑值。对于大多数应用程序集unmorlebledqn“上”。有关更多信息,请参见深Q-Network代理

贪婪探索的选项,指定为EpsilonGreedyExploration对象,具有以下属性。

财产 描述 默认值
ε 随机选择一个动作或选择最大化状态动作值函数的动作的概率阈值。更大的价值ε意味着代理以更高的速度随机探索行动空间。 1
EpsilonMin 最小值的ε 0.01
EpsilonDecay 衰减率 0.0050.

在每个训练时间步的末尾,如果ε大于EpsilonMin,则使用以下公式更新。

epsilon = epsilon *(1-epsilondecay)

要指定探索选项,请在创建后使用点表示法rldqnagentoptions.对象。例如,设置的值为0.9

选择= rlDQNAgentOptions;opt.EpsilonGreedyExploration.Epsilon = 0.9;

如果你的代理过于快速地收敛于局部最优,那么通过增加代理的探索来促进ε

当使用递归神经网络对批评家进行批量训练的最大轨迹长度,指定为一个正整数。该值必须大于1在为评论家使用经常性神经网络时1否则。

目标批评更新的平滑因子,指定为小于或等于的正标量。有关更多信息,请参阅目标更新方法

目标批读更新之间的步数,指定为正整数。有关更多信息,请参见目标更新方法

训练前清除经验缓冲区的标志,指定为逻辑值。

保存代理时保存体验缓冲区数据的标志,指定为逻辑值。在培训期间保存候选代理和使用保存函数。

对于某些代理,例如具有大经验缓冲区和基于图像的观察的代理,节省其体验缓冲区所需的内存大。在这种情况下,不保存体验缓冲区数据,设置SaveexperienceBufferWithAgent.

如果您计划进一步列出已保存的代理,您可以使用以前的经验缓冲区作为起点开始培训。在这种情况下,设置SaveexperienceBufferWithAgent.真的

随机体验迷你批次的大小,指定为正整数。在每次训练期间,代理在计算渐变时随机随机采样从体验缓冲区的体验,以更新批评属性。大型批次在计算梯度时减少方差,但增加计算工作。

在使用反批评的经常性神经网络时,小匹匹匹匹配批量中经验轨迹的数量,每个轨迹的长度是否相等Sequencelength.

在训练期间预期的步骤数,指定为一个正整数。

使用反复性神经网络以获得评论家的批评时不支持N-S金宝apptep Q学习。在这种情况下,numstepstolookahead.一定是1

体验缓冲区大小,指定为正整数。在培训期间,代理使用从缓冲区随机抽取的一小批经验更新评论家。

代理的采样时间,指定为正标量。

在Simulink金宝app环境中,代理将在每个SampleTime模拟时间秒。

在MATLAB环境中,每当环境进展时,代理就会执行。然而,SampleTime是输出体验中连续元素之间的时间间隔sim卡或者火车

在培训期间应用于未来奖励的折扣因素,指定为小于或等于1的正标量。

对象的功能

rldqnagent. 深度q -网络强化学习代理

例子

全部收缩

此示例显示如何创建DQN代理选项对象。

创建一个rldqnagentoptions.指定代理迷你批处理大小的对象。

opt = rldqnagentoptions(“MiniBatchSize”48)
Opt =具有属性的RLDQNAGENTOPTIONS:unmerlowbredyexpliation:[1x1 rl.option.epsilongredyexpliation] semencel长长:1目标性能:0.9900

您可以使用点表示法修改选项。例如,设置座席采样时间为0.5

opt.sampletime = 0.5;

兼容性考虑因素

全部展开

R2020A中的行为发生了变化

另请参阅

介绍了R2019a