rlDQNAgentOptions

选择DQN代理

扩展所有的页面

描述

使用一个rlDQNAgentOptions对象为深Q-network指定选项(DQN)代理。创建一个DQN代理,使用rlDQNAgent。

有关更多信息,请参见深Q-Network代理。

更多信息在不同类型的强化学习代理,看看强化学习代理。

创建

语法

选择= rlDQNAgentOptions

选择= rlDQNAgentOptions(名称、值)

描述

选择= rlDQNAgentOptions将创建一个选项对象作为参数使用在创建DQN代理使用所有缺省设置。您可以修改对象属性使用点符号。

例子

选择= rlDQNAgentOptions (名称,值)设置选项属性使用名称-值对。例如,rlDQNAgentOptions (DiscountFactor, 0.95)创建一个选项设定的折现系数0.95。您可以指定多个名称-值对。在报价附上每个属性的名字。

属性

全部展开

`UseDoubleDQN`- - - - - -使用双DQN的旗帜
真正的(默认)|假

国旗为价值函数使用双DQN目标更新,指定为一个逻辑值。对于大多数应用程序设置UseDoubleDQN来“上”。有关更多信息,请参见深Q-Network代理。

`EpsilonGreedyExploration`- - - - - -选择epsilon-greedy探索
`EpsilonGreedyExploration`对象

选择epsilon-greedy探索,指定为一个EpsilonGreedyExploration具有以下属性的对象。

财产	描述	默认值
`ε`	概率阈值随机选择一个行动或选择最大化的行动政府行动的价值功能。更大的价值`ε`意味着代理随机探索行动空间以更高的速度。	`1`
`EpsilonMin`	最小值的`ε`	`0.01`
`EpsilonDecay`	衰减率	`0.0050`

在每个培训时间步,如果ε大于EpsilonMin更新,那么使用以下公式。

ε=ε* (1-EpsilonDecay)

如果你的代理在当地最适条件收敛过快,可以促进剂探索通过增加ε。

指定选项,探索创建后使用点符号rlDQNAgentOptions对象选择。例如,设置ε值0.9。

opt.EpsilonGreedyExploration。ε= 0.9;

`SequenceLength`- - - - - -使用RNN时最大batch-training轨迹长度
`1`(默认)|正整数

最大batch-training轨迹长度在使用递归神经网络的评论家,指定为一个正整数。这个值必须大于1当使用一个评论家和递归神经网络1否则。

`TargetSmoothFactor`- - - - - -平滑系数为目标评论家更新
`1 e - 3`(默认)|积极的标量小于或等于1

平滑系数为目标评论家更新,指定为一个积极的标量小于或等于1。有关更多信息,请参见目标更新方法。

`TargetUpdateFrequency`- - - - - -目标之间的步骤数目评论家更新
`1`(默认)|正整数

目标的批评家之间的步骤数量更新,指定为一个正整数。有关更多信息,请参见目标更新方法。

`ResetExperienceBufferBeforeTraining`- - - - - -选择清除缓冲区的经验
`真正的`(默认)|`假`

选择清除缓冲区之前培训经验,指定为一个逻辑值。

`SaveExperienceBufferWithAgent`- - - - - -选择保存缓冲区的经验
`假`(默认)|`真正的`

选择保存经验缓冲区数据保存剂时,指定为一个逻辑值。这个选项适用于保存候选代理人在训练时和在保存代理使用保存函数。

对于一些代理,如有大量经验缓冲区和基于图像的观察,拯救他们的经验缓冲所需的内存很大。在这种情况下,缓冲区数据不保存经验,集SaveExperienceBufferWithAgent来假。

如果你计划进一步训练你的保存剂,你可以开始训练与经验缓冲区作为起点。在这种情况下,集SaveExperienceBufferWithAgent来真正的。

`MiniBatchSize`- - - - - -大小的随机mini-batch经验
`64年`(默认)|正整数

大小的随机mini-batch经验,指定为一个正整数。在每次训练集,代理经验的随机样本经验缓冲区时计算梯度更新评论家属性。大型mini-batches减少方差计算梯度但增加计算工作量。

当使用递归神经网络的评论家,MiniBatchSize是经验轨迹的数量在一个批处理,其中每个轨迹长度等于什么SequenceLength。

`NumStepsToLookAhead`- - - - - -使用未来的奖励数量估计价值的政策
`1`(默认)|正整数

使用未来的奖励数量估计的值政策,指定为一个正整数。有关更多信息,请参见第7章[1]。

N-step Q学习不支持在使用递归神经网络的评论金宝app家。在这种情况下,NumStepsToLookAhead必须1。

`ExperienceBufferLength`- - - - - -经验的缓冲区大小
`10000年`(默认)|正整数

体验缓冲区大小,指定为一个正整数。在培训期间,代理计算更新使用mini-batch经历随机取样的缓冲区。

`SampleTime`- - - - - -样本的代理
`1`(默认)|积极的标量

指定的代理,样品时间作为一个积极的标量。

在一个模型金宝app^®环境中,代理执行每一个SampleTime秒的仿真时间。

在MATLAB^®环境中,代理执行每一次进步的环境。然而,SampleTime之间的时间间隔连续元素返回的输出的经验吗sim卡或火车。

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|积极的标量小于或等于1

折现系数应用于未来的回报在训练,指定为一个积极的标量小于或等于1。

对象的功能

rlDQNAgent 深Q-network强化学习代理

例子

全部折叠

创建DQN代理的选择对象

打开生活的脚本

这个例子展示了如何创建一个DQN代理的选择对象。

创建一个rlDQNAgentOptions对象,该对象指定代理mini-batch大小。

选择= rlDQNAgentOptions (“MiniBatchSize”48)

选择= rlDQNAgentOptions属性:UseDoubleDQN: 1 EpsilonGreedyExploration: [1 x1 rl.option。EpsilonGreedyExploration] TargetSmoothFactor: 1.0000e-03 TargetUpdateFrequency: 1 ResetExperienceBufferBeforeTraining: 1 SaveExperienceBufferWithAgent: 0 SequenceLength: 1 MiniBatchSize: 48 NumStepsToLookAhead: 1 ExperienceBufferLength: 10000 SampleTime: 1 DiscountFactor: 0.9900

您可以修改选项使用点符号。例如,设置代理样品时间0.5。

opt.SampleTime = 0.5;

兼容性的考虑

全部展开

DQN代理目标更新方法设置已经改变了

行为改变R2020a

DQN代理目标更新方法设置已经改变了。以下更改要求更新你的代码:

的TargetUpdateMethod选项已被删除。现在,DQN代理确定目标更新方法的基础上TargetUpdateFrequency和TargetSmoothFactor选项值。
的默认值TargetUpdateFrequency已经从4来1。

使用下列目标之一的更新方法,设置TargetUpdateFrequency和TargetSmoothFactor属性显示。

更新方法	`TargetUpdateFrequency`	`TargetSmoothFactor`
平滑	`1`	不到`1`
周期	大于`1`	`1`
周期性的平滑(R2020a新方法)	大于`1`	不到`1`

默认目标更新配置,这是一个平滑的更新TargetSmoothFactor的价值0.001,是相同的。

更新代码

此表显示了一些典型的使用rlDQNAgentOptions以及如何更新你的代码来使用新的配置选项。

不推荐	推荐
选择= rlDQNAgentOptions (“TargetUpdateMethod”、“平滑”);	选择= rlDQNAgentOptions;
选择= rlDQNAgentOptions (“TargetUpdateMethod”、“周期”);	选择= rlDQNAgentOptions;opt.TargetUpdateFrequency = 4;opt.TargetSmoothFactor = 1;
选择= rlDQNAgentOptions;opt.TargetUpdateMethod =“周期性”;opt.TargetUpdateFrequency = 5;	选择= rlDQNAgentOptions;opt.TargetUpdateFrequency = 5;opt.TargetSmoothFactor = 1;

不推荐

引用

[1]萨顿,理查德·S。,安德鲁·g·Barto。强化学习:介绍。第二版。自适应计算和机器学习。剑桥:麻省理工学院出版社,2018年。

另请参阅

主题

深Q-Network代理

介绍了R2019a

rlDQNAgentOptions

描述

创建

语法

描述

属性

`UseDoubleDQN`- - - - - -使用双DQN的旗帜
真正的(默认)|假

`EpsilonGreedyExploration`- - - - - -选择epsilon-greedy探索
`EpsilonGreedyExploration`对象

`SequenceLength`- - - - - -使用RNN时最大batch-training轨迹长度
`1`(默认)|正整数

`TargetSmoothFactor`- - - - - -平滑系数为目标评论家更新
`1 e - 3`(默认)|积极的标量小于或等于1

`TargetUpdateFrequency`- - - - - -目标之间的步骤数目评论家更新
`1`(默认)|正整数

`ResetExperienceBufferBeforeTraining`- - - - - -选择清除缓冲区的经验
`真正的`(默认)|`假`

`SaveExperienceBufferWithAgent`- - - - - -选择保存缓冲区的经验
`假`(默认)|`真正的`

`MiniBatchSize`- - - - - -大小的随机mini-batch经验
`64年`(默认)|正整数

`NumStepsToLookAhead`- - - - - -使用未来的奖励数量估计价值的政策
`1`(默认)|正整数

`ExperienceBufferLength`- - - - - -经验的缓冲区大小
`10000年`(默认)|正整数

`SampleTime`- - - - - -样本的代理
`1`(默认)|积极的标量

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|积极的标量小于或等于1

对象的功能

例子

创建DQN代理的选择对象

兼容性的考虑

DQN代理目标更新方法设置已经改变了

引用

另请参阅

主题

强化学习工具箱文档

金宝app

强化学习与MATLAB仿真软件金宝app

rlDQNAgentOptions

描述

创建

语法

描述

属性

UseDoubleDQN- - - - - -使用双DQN的旗帜真正的(默认)|假

EpsilonGreedyExploration- - - - - -选择epsilon-greedy探索EpsilonGreedyExploration对象

SequenceLength- - - - - -使用RNN时最大batch-training轨迹长度1(默认)|正整数

TargetSmoothFactor- - - - - -平滑系数为目标评论家更新1 e - 3(默认)|积极的标量小于或等于1

TargetUpdateFrequency- - - - - -目标之间的步骤数目评论家更新1(默认)|正整数

ResetExperienceBufferBeforeTraining- - - - - -选择清除缓冲区的经验真正的(默认)|假

SaveExperienceBufferWithAgent- - - - - -选择保存缓冲区的经验假(默认)|真正的

MiniBatchSize- - - - - -大小的随机mini-batch经验64年(默认)|正整数

NumStepsToLookAhead- - - - - -使用未来的奖励数量估计价值的政策1(默认)|正整数

ExperienceBufferLength- - - - - -经验的缓冲区大小10000年(默认)|正整数

SampleTime- - - - - -样本的代理1(默认)|积极的标量

DiscountFactor- - - - - -折现系数0.99(默认)|积极的标量小于或等于1

对象的功能

例子

创建DQN代理的选择对象

兼容性的考虑

DQN代理目标更新方法设置已经改变了

引用

另请参阅

主题

强化学习工具箱文档

金宝app

强化学习与MATLAB仿真软件金宝app

`UseDoubleDQN`- - - - - -使用双DQN的旗帜
真正的(默认)|假

`EpsilonGreedyExploration`- - - - - -选择epsilon-greedy探索
`EpsilonGreedyExploration`对象

`SequenceLength`- - - - - -使用RNN时最大batch-training轨迹长度
`1`(默认)|正整数

`TargetSmoothFactor`- - - - - -平滑系数为目标评论家更新
`1 e - 3`(默认)|积极的标量小于或等于1

`TargetUpdateFrequency`- - - - - -目标之间的步骤数目评论家更新
`1`(默认)|正整数

`ResetExperienceBufferBeforeTraining`- - - - - -选择清除缓冲区的经验
`真正的`(默认)|`假`

`SaveExperienceBufferWithAgent`- - - - - -选择保存缓冲区的经验
`假`(默认)|`真正的`

`MiniBatchSize`- - - - - -大小的随机mini-batch经验
`64年`(默认)|正整数

`NumStepsToLookAhead`- - - - - -使用未来的奖励数量估计价值的政策
`1`(默认)|正整数

`ExperienceBufferLength`- - - - - -经验的缓冲区大小
`10000年`(默认)|正整数

`SampleTime`- - - - - -样本的代理
`1`(默认)|积极的标量

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|积极的标量小于或等于1