rlDQNAgentOptions

DQN代理的选项

全部展开页面

描述

使用一个rlDQNAgentOptions对象指定深度Q-network (DQN)代理的选项。要创建DQN代理，请使用rlDQNAgent．

有关更多信息，请参见深Q-Network代理．

有关不同类型的强化学习代理的更多信息，请参见强化学习代理．

创建

语法

选择= rlDQNAgentOptions

选择= rlDQNAgentOptions(名称、值)

描述

选择= rlDQNAgentOptions在使用所有默认设置创建DQN代理时，创建一个选项对象作为参数。可以使用点表示法修改对象属性。

例子

选择= rlDQNAgentOptions (名称,值）设置选项属性使用名称-值对。例如,rlDQNAgentOptions (DiscountFactor, 0.95)创建贴现因子为的选项集0.95．可以指定多个名称-值对。将每个属性名用引号括起来。

属性

全部展开

`UseDoubleDQN`- - - - - -使用双DQN的标志
真正的(默认)|假

对值函数目标更新使用双DQN的标志，指定为逻辑值。对于大多数应用程序集UseDoubleDQN来“上”．有关更多信息，请参见深Q-Network代理．

`EpsilonGreedyExploration`- - - - - -贪心探索的选项
`EpsilonGreedyExploration`对象

贪婪探索的选项，指定为EpsilonGreedyExploration对象的以下属性。

财产	描述	默认值
`ε`	概率阈值可以是随机选择一个动作或选择使状态-动作值函数最大化的动作。较大的值`ε`意味着代理以更高的速度随机探索操作空间。	`1`
`EpsilonMin`	最小值的`ε`	`０．０１`
`EpsilonDecay`	衰减率	`0.0050`

在每个训练时间步长结束时，如果ε大于EpsilonMin，然后使用以下公式进行更新。

ε=ε* (1-EpsilonDecay)

如果您的代理在局部最优上收敛得太快，您可以通过增加代理来促进探索ε．

要指定探查选项，请在创建rlDQNAgentOptions对象选择．例如，将值设为0．9．

opt.EpsilonGreedyExploration.Epsilon = 0.9;

`SequenceLength`- - - - - -使用RNN时的最大批量训练轨迹长度
`1`(默认)|正整数

使用递归神经网络对批评者进行批量训练时的最大轨迹长度，指定为一个正整数。该值必须大于1当使用递归神经网络对批评家和1否则。

`TargetSmoothFactor`- - - - - -平滑因子的目标评论家更新
`1 e - 3`(默认)|小于等于1的正标量

目标批评家更新的平滑因子，指定为小于或等于1的正标量。有关更多信息，请参见目标更新方法．

`TargetUpdateFrequency`- - - - - -目标批评者更新之间的步骤数
`1`(默认)|正整数

目标批评者更新之间的步骤数，指定为正整数。有关更多信息，请参见目标更新方法．

`ResetExperienceBufferBeforeTraining`- - - - - -清除经验缓冲区的选项
`真正的`(默认)|`假`

选项用于在训练前清除经验缓冲区，指定为逻辑值。

`SaveExperienceBufferWithAgent`- - - - - -选择保存经验缓冲区
`假`(默认)|`真正的`

在保存代理时保存经验缓冲区数据的选项，指定为逻辑值。此选项适用于在培训期间保存候选代理以及使用保存函数。

对于一些代理，例如那些具有较大的经验缓冲区和基于图像的观察的代理，保存它们的经验缓冲区所需的内存很大。在这种情况下，为了不保存经验缓冲区数据，设置SaveExperienceBufferWithAgent来假．

如果您计划进一步培训所保存的代理，可以从以前的经验缓冲区作为起点开始培训。在本例中，setSaveExperienceBufferWithAgent来真正的．

`MiniBatchSize`- - - - - -随机经验小批量的大小
`64`(默认)|正整数

随机经验小批的大小，指定为一个正整数。在每个训练集中，agent在计算梯度时从经验缓冲区中随机采样经验，以更新临界属性。大的小批量在计算梯度时减少了方差，但增加了计算工作量。

当评论家使用递归神经网络时，MiniBatchSize在一批经验轨迹中，每条轨迹的长度等于多少SequenceLength．

`NumStepsToLookAhead`- - - - - -用于估计保单价值的未来奖励数量
`1`(默认)|正整数

用于估计策略价值的未来奖励数量，指定为正整数。有关更多信息，请参阅[1]的第7章。

对于批评家使用递归神经网络时，不支持n步Q学习。金宝app在这种情况下,NumStepsToLookAhead必须1．

`ExperienceBufferLength`- - - - - -经验的缓冲区大小
`10000`(默认)|正整数

体验缓冲区大小，指定为正整数。在训练过程中，代理使用从缓冲区中随机抽样的一小批经验计算更新。

`SampleTime`- - - - - -药剂取样时间
`1`(默认)|积极的标量

试剂的采样时间，指定为正标量。

在一个模型金宝app^®环境中，代理被执行SampleTime模拟时间的秒数。

在MATLAB^®环境中，每当环境进步时，代理就会被执行。然而,SampleTime返回的输出经验中连续元素之间的时间间隔是多少sim卡或火车．

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|小于等于1的正标量

贴现因子应用于培训期间的未来奖励，指定为小于或等于1的正标量。

对象的功能

rlDQNAgent 深度q -网络强化学习代理

例子

全部折叠

创建DQN代理选项对象

打开生活的脚本

这个示例展示了如何创建DQN代理选项对象。

创建一个rlDQNAgentOptions对象，该对象指定代理迷你批处理大小。

选择= rlDQNAgentOptions (“MiniBatchSize”48)

EpsilonGreedyExploration: [1x1 rl.option.]EpsilonGreedyExploration] TargetSmoothFactor: 1.0000e-03 TargetUpdateFrequency: 1 ResetExperienceBufferBeforeTraining: 1 SaveExperienceBufferWithAgent: 0 SequenceLength: 1 MiniBatchSize: 48 NumStepsToLookAhead: 1 ExperienceBufferLength: 10000 SampleTime: 1 DiscountFactor: 0.9900

您可以使用点符号修改选项。例如，将代理示例时间设置为0．5．

opt.SampleTime = 0.5;

兼容性的考虑

全部展开

DQN代理的目标更新方法设置已更改

行为在R2020a中改变

DQN代理的目标更新方法设置已更改。以下更改需要对代码进行更新:

的TargetUpdateMethod选项已被删除。现在，DQN agent根据。确定目标更新方法TargetUpdateFrequency和TargetSmoothFactor选项值。
的默认值TargetUpdateFrequency已经从4来1．

要使用下列目标更新方法之一，请设置TargetUpdateFrequency和TargetSmoothFactor属性显示。

更新方法	`TargetUpdateFrequency`	`TargetSmoothFactor`
平滑	`1`	不到`1`
周期	大于`1`	`1`
周期平滑(R2020a中的新方法)	大于`1`	不到`1`

默认的目标更新配置，它是平滑更新TargetSmoothFactor的价值０．００１，保持不变。

更新代码

这个表格显示了…的一些典型用法rlDQNAgentOptions以及如何更新代码以使用新的选项配置。

不推荐	推荐
选择= rlDQNAgentOptions(“TargetUpdateMethod”、“平滑”);	选择= rlDQNAgentOptions;
选择= rlDQNAgentOptions(“TargetUpdateMethod”、“周期”);	选择= rlDQNAgentOptions;opt.TargetUpdateFrequency = 4;opt.TargetSmoothFactor = 1;
选择= rlDQNAgentOptions;opt.TargetUpdateMethod =“周期性”;opt.TargetUpdateFrequency = 5;	选择= rlDQNAgentOptions;opt.TargetUpdateFrequency = 5;opt.TargetSmoothFactor = 1;

不推荐

参考文献

Richard S. Sutton和Andrew G. Barto。强化学习:简介．第二版。自适应计算和机器学习。麻省理工学院出版社，2018年。

另请参阅

主题

深Q-Network代理

介绍了R2019a

rlDQNAgentOptions

描述

创建

语法

描述

属性

`UseDoubleDQN`- - - - - -使用双DQN的标志
真正的(默认)|假

`EpsilonGreedyExploration`- - - - - -贪心探索的选项
`EpsilonGreedyExploration`对象

`SequenceLength`- - - - - -使用RNN时的最大批量训练轨迹长度
`1`(默认)|正整数

`TargetSmoothFactor`- - - - - -平滑因子的目标评论家更新
`1 e - 3`(默认)|小于等于1的正标量

`TargetUpdateFrequency`- - - - - -目标批评者更新之间的步骤数
`1`(默认)|正整数

`ResetExperienceBufferBeforeTraining`- - - - - -清除经验缓冲区的选项
`真正的`(默认)|`假`

`SaveExperienceBufferWithAgent`- - - - - -选择保存经验缓冲区
`假`(默认)|`真正的`

`MiniBatchSize`- - - - - -随机经验小批量的大小
`64`(默认)|正整数

`NumStepsToLookAhead`- - - - - -用于估计保单价值的未来奖励数量
`1`(默认)|正整数

`ExperienceBufferLength`- - - - - -经验的缓冲区大小
`10000`(默认)|正整数

`SampleTime`- - - - - -药剂取样时间
`1`(默认)|积极的标量

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|小于等于1的正标量

对象的功能

例子

创建DQN代理选项对象

兼容性的考虑

DQN代理的目标更新方法设置已更改

参考文献

另请参阅

主题

强化学习工具箱文档

金宝app

强化学习与MATLAB和Simulink金宝app

rlDQNAgentOptions

描述

创建

语法

描述

属性

UseDoubleDQN- - - - - -使用双DQN的标志真正的(默认)|假

EpsilonGreedyExploration- - - - - -贪心探索的选项EpsilonGreedyExploration对象

SequenceLength- - - - - -使用RNN时的最大批量训练轨迹长度1(默认)|正整数

TargetSmoothFactor- - - - - -平滑因子的目标评论家更新1 e - 3(默认)|小于等于1的正标量

TargetUpdateFrequency- - - - - -目标批评者更新之间的步骤数1(默认)|正整数

ResetExperienceBufferBeforeTraining- - - - - -清除经验缓冲区的选项真正的(默认)|假

SaveExperienceBufferWithAgent- - - - - -选择保存经验缓冲区假(默认)|真正的

MiniBatchSize- - - - - -随机经验小批量的大小64(默认)|正整数

NumStepsToLookAhead- - - - - -用于估计保单价值的未来奖励数量1(默认)|正整数

ExperienceBufferLength- - - - - -经验的缓冲区大小10000(默认)|正整数

SampleTime- - - - - -药剂取样时间1(默认)|积极的标量

DiscountFactor- - - - - -折现系数0.99(默认)|小于等于1的正标量

对象的功能

例子

创建DQN代理选项对象

兼容性的考虑

DQN代理的目标更新方法设置已更改

参考文献

另请参阅

主题

强化学习工具箱文档

金宝app

强化学习与MATLAB和Simulink金宝app

`UseDoubleDQN`- - - - - -使用双DQN的标志
真正的(默认)|假

`EpsilonGreedyExploration`- - - - - -贪心探索的选项
`EpsilonGreedyExploration`对象

`SequenceLength`- - - - - -使用RNN时的最大批量训练轨迹长度
`1`(默认)|正整数

`TargetSmoothFactor`- - - - - -平滑因子的目标评论家更新
`1 e - 3`(默认)|小于等于1的正标量

`TargetUpdateFrequency`- - - - - -目标批评者更新之间的步骤数
`1`(默认)|正整数

`ResetExperienceBufferBeforeTraining`- - - - - -清除经验缓冲区的选项
`真正的`(默认)|`假`

`SaveExperienceBufferWithAgent`- - - - - -选择保存经验缓冲区
`假`(默认)|`真正的`

`MiniBatchSize`- - - - - -随机经验小批量的大小
`64`(默认)|正整数

`NumStepsToLookAhead`- - - - - -用于估计保单价值的未来奖励数量
`1`(默认)|正整数

`ExperienceBufferLength`- - - - - -经验的缓冲区大小
`10000`(默认)|正整数

`SampleTime`- - - - - -药剂取样时间
`1`(默认)|积极的标量

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|小于等于1的正标量