rlDQNAgentOptions
选择DQN代理
描述
使用一个rlDQNAgentOptions
对象为深Q-network指定选项(DQN)代理。创建一个DQN代理,使用rlDQNAgent
。
有关更多信息,请参见深Q-Network代理。
更多信息在不同类型的强化学习代理,看看强化学习代理。
创建
属性
UseDoubleDQN
- - - - - -使用双DQN的旗帜
真正的(默认)|假
国旗为价值函数使用双DQN目标更新,指定为一个逻辑值。对于大多数应用程序设置UseDoubleDQN
来“上”
。有关更多信息,请参见深Q-Network代理。
EpsilonGreedyExploration
- - - - - -选择epsilon-greedy探索
EpsilonGreedyExploration
对象
选择epsilon-greedy探索,指定为一个EpsilonGreedyExploration
具有以下属性的对象。
财产 | 描述 | 默认值 |
---|---|---|
ε |
概率阈值随机选择一个行动或选择最大化的行动政府行动的价值功能。更大的价值ε 意味着代理随机探索行动空间以更高的速度。 |
1 |
EpsilonMin |
最小值的ε |
0.01 |
EpsilonDecay |
衰减率 | 0.0050 |
在每个培训时间步,如果ε
大于EpsilonMin
更新,那么使用以下公式。
ε=ε* (1-EpsilonDecay)
如果你的代理在当地最适条件收敛过快,可以促进剂探索通过增加ε
。
指定选项,探索创建后使用点符号rlDQNAgentOptions
对象选择
。例如,设置ε值0.9
。
opt.EpsilonGreedyExploration。ε= 0.9;
SequenceLength
- - - - - -使用RNN时最大batch-training轨迹长度
1
(默认)|正整数
最大batch-training轨迹长度在使用递归神经网络的评论家,指定为一个正整数。这个值必须大于1
当使用一个评论家和递归神经网络1
否则。
TargetSmoothFactor
- - - - - -平滑系数为目标评论家更新
1 e - 3
(默认)|积极的标量小于或等于1
平滑系数为目标评论家更新,指定为一个积极的标量小于或等于1。有关更多信息,请参见目标更新方法。
TargetUpdateFrequency
- - - - - -目标之间的步骤数目评论家更新
1
(默认)|正整数
目标的批评家之间的步骤数量更新,指定为一个正整数。有关更多信息,请参见目标更新方法。
ResetExperienceBufferBeforeTraining
- - - - - -选择清除缓冲区的经验
真正的
(默认)|假
选择清除缓冲区之前培训经验,指定为一个逻辑值。
SaveExperienceBufferWithAgent
- - - - - -选择保存缓冲区的经验
假
(默认)|真正的
选择保存经验缓冲区数据保存剂时,指定为一个逻辑值。这个选项适用于保存候选代理人在训练时和在保存代理使用保存
函数。
对于一些代理,如有大量经验缓冲区和基于图像的观察,拯救他们的经验缓冲所需的内存很大。在这种情况下,缓冲区数据不保存经验,集SaveExperienceBufferWithAgent
来假
。
如果你计划进一步训练你的保存剂,你可以开始训练与经验缓冲区作为起点。在这种情况下,集SaveExperienceBufferWithAgent
来真正的
。
MiniBatchSize
- - - - - -大小的随机mini-batch经验
64年
(默认)|正整数
大小的随机mini-batch经验,指定为一个正整数。在每次训练集,代理经验的随机样本经验缓冲区时计算梯度更新评论家属性。大型mini-batches减少方差计算梯度但增加计算工作量。
当使用递归神经网络的评论家,MiniBatchSize
是经验轨迹的数量在一个批处理,其中每个轨迹长度等于什么SequenceLength
。
NumStepsToLookAhead
- - - - - -使用未来的奖励数量估计价值的政策
1
(默认)|正整数
使用未来的奖励数量估计的值政策,指定为一个正整数。有关更多信息,请参见第7章[1]。
N-step Q学习不支持在使用递归神经网络的评论金宝app家。在这种情况下,NumStepsToLookAhead
必须1
。
ExperienceBufferLength
- - - - - -经验的缓冲区大小
10000年
(默认)|正整数
体验缓冲区大小,指定为一个正整数。在培训期间,代理计算更新使用mini-batch经历随机取样的缓冲区。
DiscountFactor
- - - - - -折现系数
0.99
(默认)|积极的标量小于或等于1
折现系数应用于未来的回报在训练,指定为一个积极的标量小于或等于1。
对象的功能
rlDQNAgent |
深Q-network强化学习代理 |
例子
创建DQN代理的选择对象
这个例子展示了如何创建一个DQN代理的选择对象。
创建一个rlDQNAgentOptions
对象,该对象指定代理mini-batch大小。
选择= rlDQNAgentOptions (“MiniBatchSize”48)
选择= rlDQNAgentOptions属性:UseDoubleDQN: 1 EpsilonGreedyExploration: [1 x1 rl.option。EpsilonGreedyExploration] TargetSmoothFactor: 1.0000e-03 TargetUpdateFrequency: 1 ResetExperienceBufferBeforeTraining: 1 SaveExperienceBufferWithAgent: 0 SequenceLength: 1 MiniBatchSize: 48 NumStepsToLookAhead: 1 ExperienceBufferLength: 10000 SampleTime: 1 DiscountFactor: 0.9900
您可以修改选项使用点符号。例如,设置代理样品时间0.5
。
opt.SampleTime = 0.5;
兼容性的考虑
DQN代理目标更新方法设置已经改变了
行为改变R2020a
DQN代理目标更新方法设置已经改变了。以下更改要求更新你的代码:
的
TargetUpdateMethod
选项已被删除。现在,DQN代理确定目标更新方法的基础上TargetUpdateFrequency
和TargetSmoothFactor
选项值。的默认值
TargetUpdateFrequency
已经从4
来1
。
使用下列目标之一的更新方法,设置TargetUpdateFrequency
和TargetSmoothFactor
属性显示。
更新方法 | TargetUpdateFrequency |
TargetSmoothFactor |
---|---|---|
平滑 | 1 |
不到1 |
周期 | 大于1 |
1 |
周期性的平滑(R2020a新方法) | 大于1 |
不到1 |
默认目标更新配置,这是一个平滑的更新TargetSmoothFactor
的价值0.001
,是相同的。
此表显示了一些典型的使用rlDQNAgentOptions
以及如何更新你的代码来使用新的配置选项。
不推荐 | 推荐 |
---|---|
选择= rlDQNAgentOptions (“TargetUpdateMethod”、“平滑”); |
选择= rlDQNAgentOptions; |
选择= rlDQNAgentOptions (“TargetUpdateMethod”、“周期”); |
选择= rlDQNAgentOptions;opt.TargetUpdateFrequency = 4;opt.TargetSmoothFactor = 1; |
选择= rlDQNAgentOptions;opt.TargetUpdateMethod =“周期性”;opt.TargetUpdateFrequency = 5; |
选择= rlDQNAgentOptions;opt.TargetUpdateFrequency = 5;opt.TargetSmoothFactor = 1; |
引用
[1]萨顿,理查德·S。,安德鲁·g·Barto。强化学习:介绍。第二版。自适应计算和机器学习。剑桥:麻省理工学院出版社,2018年。
另请参阅
主题
打开举例
你们possedez一个版本modifiee de cet(中央东部东京)为例。Souhaitez-vous打开cet(中央东部东京)为例用vos修改吗?
对MATLAB
你们有派对在联合国留置权,对应这个对MATLAB:
倒实行la对saisissez-la在fenetre德对MATLAB。Les navigateurs web不sup金宝appportent Les MATLAB命令。
你也可以从下面的列表中选择一个网站:
表现最好的网站怎么走吗
选择中国网站(中文或英文)最佳站点的性能。其他MathWorks国家网站不优化的访问你的位置。