rldqnagentoptions.

DQN代理的选项

全页展开

描述

使用一个rldqnagentoptions.对象以指定Deep Q-Network（DQN）代理的选项。要创建DQN代理，请使用rldqnagent.。

有关更多信息，请参见深Q-Network代理。

有关不同类型的强化学习代理的更多信息，请参见加固学习代理人。

创建

语法

选择= rldqnagentoptions.

选择= rlDQNAgentOptions(名称、值)

描述

选择= rlDQNAgentOptions在使用所有默认设置创建DQN代理时，创建一个选项对象作为参数使用。您可以使用点表示法修改对象属性。

例子

选择= RLDQNAGENTOPTIONS（名称，价值)设置选项特性使用名称-值对。例如,rlDQNAgentOptions (DiscountFactor, 0.95)创建一个选项设置，折扣系数0.95。可以指定多个名称-值对。用引号括起每个属性名。

属性

全部展开

`unmorlebledqn`- - - - - -标记使用双DQN
真的(默认)|假

标志，用于对值函数目标更新使用double DQN，指定为逻辑值。对于大多数应用程序集unmorlebledqn来“上”。有关更多信息，请参见深Q-Network代理。

`EpsilonGreedyExploration`- - - - - -epsilon贪婪探索的选择
`EpsilonGreedyExploration`对象

贪婪探索的选项，指定为EpsilonGreedyExploration对象，具有以下属性。

财产	描述	默认值
`ε`	随机选择一个动作或选择最大化状态动作值函数的动作的概率阈值。更大的价值`ε`意味着代理以更高的速度随机探索行动空间。	`1`
`EpsilonMin`	最小值的`ε`	`0.01`
`EpsilonDecay`	衰减率	`0.0050.`

在每个训练时间步的末尾，如果ε大于EpsilonMin，则使用以下公式更新。

epsilon = epsilon *（1-epsilondecay）

要指定探索选项，请在创建后使用点表示法rldqnagentoptions.对象。例如，设置的值为0.9。

选择= rlDQNAgentOptions;opt.EpsilonGreedyExploration.Epsilon = 0.9;

如果你的代理过于快速地收敛于局部最优，那么通过增加代理的探索来促进ε。

`Sequencelength.`- - - - - -RNN最大批训练轨迹长度
`1`(默认)|正整数

当使用递归神经网络对批评家进行批量训练的最大轨迹长度，指定为一个正整数。该值必须大于1在为评论家使用经常性神经网络时1否则。

`TargetSmoothFactor`- - - - - -目标评论更新的平滑因子
`1 e - 3`(默认)|正标量小于或等于1

目标批评更新的平滑因子，指定为小于或等于的正标量。有关更多信息，请参阅目标更新方法。

`TargetUpdateFrequency`- - - - - -目标评论更新之间的步骤数
`1`(默认)|正整数

目标批读更新之间的步数，指定为正整数。有关更多信息，请参见目标更新方法。

`ResetExperienceBufferBeforeTraining`- - - - - -用于清除体验缓冲区的标志
`真的`(默认)|`假`

训练前清除经验缓冲区的标志，指定为逻辑值。

`SaveexperienceBufferWithAgent.`- - - - - -保存体验缓冲区的标志
`假`(默认)|`真的`

保存代理时保存体验缓冲区数据的标志，指定为逻辑值。在培训期间保存候选代理和使用保存函数。

对于某些代理，例如具有大经验缓冲区和基于图像的观察的代理，节省其体验缓冲区所需的内存大。在这种情况下，不保存体验缓冲区数据，设置SaveexperienceBufferWithAgent.来假。

如果您计划进一步列出已保存的代理，您可以使用以前的经验缓冲区作为起点开始培训。在这种情况下，设置SaveexperienceBufferWithAgent.来真的。

`小匹匹匹匹配`- - - - - -随机经验小批量的大小
`64`(默认)|正整数

随机体验迷你批次的大小，指定为正整数。在每次训练期间，代理在计算渐变时随机随机采样从体验缓冲区的体验，以更新批评属性。大型批次在计算梯度时减少方差，但增加计算工作。

在使用反批评的经常性神经网络时，小匹匹匹匹配批量中经验轨迹的数量，每个轨迹的长度是否相等Sequencelength.。

`numstepstolookahead.`- - - - - -未来的步数
`1`(默认)|正整数

在训练期间预期的步骤数，指定为一个正整数。

使用反复性神经网络以获得评论家的批评时不支持N-S金宝apptep Q学习。在这种情况下，numstepstolookahead.一定是1。

`ExperienceBufferLength`- - - - - -经验的缓冲区大小
`10000`(默认)|正整数

体验缓冲区大小，指定为正整数。在培训期间，代理使用从缓冲区随机抽取的一小批经验更新评论家。

`SampleTime`- - - - - -代理的采样时间
`1`(默认)|积极的标量

代理的采样时间，指定为正标量。

在Simulink金宝app环境中，代理将在每个SampleTime模拟时间秒。

在MATLAB环境中，每当环境进展时，代理就会执行。然而,SampleTime是输出体验中连续元素之间的时间间隔sim卡或者火车。

`DiscountFactor`- - - - - -折扣系数
`0.99`(默认)|正标量小于或等于1

在培训期间应用于未来奖励的折扣因素，指定为小于或等于1的正标量。

对象的功能

rldqnagent. 深度q -网络强化学习代理

例子

全部收缩

创建DQN代理选项对象

打开直播脚本

此示例显示如何创建DQN代理选项对象。

创建一个rldqnagentoptions.指定代理迷你批处理大小的对象。

opt = rldqnagentoptions（“MiniBatchSize”48)

Opt =具有属性的RLDQNAGENTOPTIONS：unmerlowbredyexpliation：[1x1 rl.option.epsilongredyexpliation] semencel长长：1目标性能：0.9900

您可以使用点表示法修改选项。例如，设置座席采样时间为0.5。

opt.sampletime = 0.5;

兼容性考虑因素

全部展开

DQN代理的目标更新方法设置已更改

R2020A中的行为发生了变化

DQN代理的目标更新方法设置已更改。以下更改需要更新代码：

的TargetUpdateMethod选项已被删除。现在，DQN代理根据。确定目标更新方法TargetUpdateFrequency和TargetSmoothFactor选项值。
默认值TargetUpdateFrequency已经从4来1。

要使用以下目标更新方法之一，请设置TargetUpdateFrequency和TargetSmoothFactor属性显示。

更新方法	`TargetUpdateFrequency`	`TargetSmoothFactor`
平滑	`1`	不到`1`
周期	大于`1`	`1`
定期平滑（R2020A中的新方法）	大于`1`	不到`1`

默认的目标更新配置，它是一个平滑更新TargetSmoothFactor的价值0.001，保持不变。

更新代码

这个表显示了一些典型的用法rldqnagentoptions.以及如何更新代码以使用新的选项配置。

不推荐	受到推崇的
opt = rldqnagentoptions（'targetupdatemethod'，“平滑”）;	选择= rlDQNAgentOptions;
opt = rldqnagentoptions（'targetupdatemethod'，“定期”）;	选择= rlDQNAgentOptions;opt.TargetUpdateFrequency = 4;opt.TargetSmoothFactor = 1;
选择= rlDQNAgentOptions;opt.targetupdatemethod =“定期”;opt.targetupdatefrequency = 5;	选择= rlDQNAgentOptions;opt.targetupdatefrequency = 5;opt.TargetSmoothFactor = 1;

不推荐

受到推崇的

opt = rldqnagentoptions（'targetupdatemethod'，“平滑”）;

选择= rlDQNAgentOptions;

opt = rldqnagentoptions（'targetupdatemethod'，“定期”）;

选择= rlDQNAgentOptions;opt.TargetUpdateFrequency = 4;opt.TargetSmoothFactor = 1;

选择= rlDQNAgentOptions;opt.targetupdatemethod =“定期”;opt.targetupdatefrequency = 5;

选择= rlDQNAgentOptions;opt.targetupdatefrequency = 5;opt.TargetSmoothFactor = 1;

另请参阅

主题

深Q-Network代理

介绍了R2019a

强化学习工具箱文档

金宝app

用Matlab和Simulink加强学习金宝app

下载电子书

rldqnagentoptions.

描述

创建

语法

描述

属性

unmorlebledqn- - - - - -标记使用双DQN真的(默认)|假

EpsilonGreedyExploration- - - - - -epsilon贪婪探索的选择EpsilonGreedyExploration对象

Sequencelength.- - - - - -RNN最大批训练轨迹长度1(默认)|正整数

TargetSmoothFactor- - - - - -目标评论更新的平滑因子1 e - 3(默认)|正标量小于或等于1

TargetUpdateFrequency- - - - - -目标评论更新之间的步骤数1(默认)|正整数

ResetExperienceBufferBeforeTraining- - - - - -用于清除体验缓冲区的标志真的(默认)|假

SaveexperienceBufferWithAgent.- - - - - -保存体验缓冲区的标志假(默认)|真的

小匹匹匹匹配- - - - - -随机经验小批量的大小64(默认)|正整数

numstepstolookahead.- - - - - -未来的步数1(默认)|正整数

ExperienceBufferLength- - - - - -经验的缓冲区大小10000(默认)|正整数

SampleTime- - - - - -代理的采样时间1(默认)|积极的标量

DiscountFactor- - - - - -折扣系数0.99(默认)|正标量小于或等于1