主要内容

rlDQNAgentOptions

选择DQN代理

描述

使用一个rlDQNAgentOptions对象为深Q-network指定选项(DQN)代理。创建一个DQN代理,使用rlDQNAgent

有关更多信息,请参见深Q-Network (DQN)代理

更多信息在不同类型的强化学习代理,看看强化学习代理

创建

描述

选择= rlDQNAgentOptions将创建一个选项对象作为参数使用在创建DQN代理使用所有缺省设置。您可以修改对象属性使用点符号。

例子

选择= rlDQNAgentOptions (名称,值)设置选项属性使用名称-值对。例如,rlDQNAgentOptions (DiscountFactor, 0.95)创建一个选项设定的折现系数0.95。您可以指定多个名称-值对。在报价附上每个属性的名字。

属性

全部展开

国旗为价值函数使用双DQN目标更新,指定为一个逻辑值。对于大多数应用程序设置UseDoubleDQN“上”。有关更多信息,请参见深Q-Network (DQN)代理

选择epsilon-greedy探索,指定为一个EpsilonGreedyExploration具有以下属性的对象。

财产 描述 默认值
ε 概率阈值随机选择一个行动或选择最大化的行动政府行动的价值功能。更大的价值ε意味着代理随机探索行动空间以更高的速度。 1
EpsilonMin 最小值的ε 0.01
EpsilonDecay 衰减率 0.0050

在每个培训时间步,如果ε大于EpsilonMin更新,那么使用以下公式。

ε=ε* (1-EpsilonDecay)

如果你的代理在当地最适条件收敛过快,可以促进剂探索通过增加ε

指定选项,探索创建后使用点符号rlDQNAgentOptions对象选择。例如,设置ε值0.9

opt.EpsilonGreedyExploration。ε= 0.9;

评论家优化选项,指定为一个rlOptimizerOptions对象。它允许您指定训练参数的评论家接近者,如学习速率梯度阈值,以及优化算法及其参数。有关更多信息,请参见rlOptimizerOptionsrlOptimizer

平滑系数为目标评论家更新,指定为一个积极的标量小于或等于1。有关更多信息,请参见目标更新方法

目标的批评家之间的步骤数量更新,指定为一个正整数。有关更多信息,请参见目标更新方法

选择清除缓冲区之前培训经验,指定为一个逻辑值。

最大batch-training轨迹长度在使用递归神经网络的评论家,指定为一个正整数。这个值必须大于1当使用一个评论家和递归神经网络1否则。

大小的随机mini-batch经验,指定为一个正整数。在每次训练集,代理经验的随机样本经验缓冲区时计算梯度更新评论家属性。大型mini-batches减少方差计算梯度但增加计算工作量。

当使用递归神经网络的评论家,MiniBatchSize是经验轨迹的数量在一个批处理,其中每个轨迹长度等于什么SequenceLength

使用未来的奖励数量估计的值政策,指定为一个正整数。有关更多信息,请参见第7章[1]。

N-step Q学习不支持在使用递归神经网络的评论金宝app家。在这种情况下,NumStepsToLookAhead必须1

体验缓冲区大小,指定为一个正整数。在培训期间,代理计算更新使用mini-batch经历随机取样的缓冲区。

样本代理的时候,作为一个积极的标量或指定1。设置这个参数1支持基于事件的模拟。

在一个模型金宝app®环境中,RL代理块中执行每一个指定的代理SampleTime秒的仿真时间。如果SampleTime1块继承了样本时间从母公司子系统。

在MATLAB®环境中,代理执行每一次进步的环境。在这种情况下,SampleTime之间的时间间隔连续元素返回的输出的经验吗sim卡火车。如果SampleTime1之间的时间间隔连续元素返回的输出经验反映了事件触发代理执行的时机。

折现系数应用于未来的回报在训练,指定为一个积极的标量小于或等于1。

对象的功能

rlDQNAgent 深Q-network (DQN)强化学习代理

例子

全部折叠

这个例子展示了如何创建一个DQN代理的选择对象。

创建一个rlDQNAgentOptions对象,该对象指定代理mini-batch大小。

选择= rlDQNAgentOptions (“MiniBatchSize”48)
选择= rlDQNAgentOptions属性:UseDoubleDQN: 1 EpsilonGreedyExploration: [1 x1 rl.option。EpsilonGreedyExploration] CriticOptimizerOptions: [1 x1 rl.option。rlOptimizerOptions] TargetSmoothFactor: 1.0000e-03 TargetUpdateFrequency: 1 ResetExperienceBufferBeforeTraining: 1 SequenceLength: 1 MiniBatchSize: 48 NumStepsToLookAhead: 1 ExperienceBufferLength: 10000 SampleTime: 1 DiscountFactor: 0.9900 InfoToSave: [1x1 struct]

您可以修改选项使用点符号。例如,设置代理样品时间0.5

opt.SampleTime = 0.5;

引用

[1]萨顿,理查德·S。,安德鲁·g·Barto。强化学习:介绍。第二版。自适应计算和机器学习。剑桥:麻省理工学院出版社,2018年。

版本历史

介绍了R2019a

全部展开

另请参阅