主要内容

rlTD3AgentOptions

TD3代理的选项

描述

使用一个rlTD3AgentOptions对象指定双延迟深度确定性策略梯度(TD3)代理的选项。要创建TD3代理,请使用rlTD3Agent

更多信息请参见双延迟深确定性政策梯度代理

有关不同类型的强化学习代理的更多信息,请参见强化学习代理

创建

描述

选择= rlTD3AgentOptions创建创建使用所有默认选项TD3剂时的选项中使用的对象作为参数。您可以修改使用点符号对象属性。

例子

选择= rlTD3AgentOptions (名称,价值设置选项属性使用名称-值对。例如,rlTD3AgentOptions (DiscountFactor, 0.95)创建贴现因子为的选项集0.95.可以指定多个名称-值对。将每个属性名用引号括起来。

属性

全部展开

噪声模型选项,指定为GaussianActionNoise对象或一个OrnsteinUhlenbeckActionNoise对象。有关噪声模型的更多信息,请参阅噪声模型

对于具有多个动作的agent,如果动作的范围和单位不同,那么每个动作可能需要不同的噪声模型参数。如果动作有相似的范围和单位,可以将所有动作的噪声参数设置为相同的值。

例如,对于具有两个操作的代理,将每个操作的标准偏差设置为不同的值,同时对两个标准偏差使用相同的衰减率。

选择= rlTD3AgentOptions;opt.ExplorationModel.StandardDeviation = [0.1 0.2]。opt.ExplorationModel.StandardDeviationDecayRate = 1E-4;

目标平滑噪声模型选项,指定为GaussianActionNoise对象。这种模式有助于政策开发具有高Q值的估计动作。有关噪声模型的更多信息,请参阅噪声模型

对于具有多个动作的agent,如果动作具有不同的范围和单元,则每个动作可能需要不同的平滑噪声模型参数。如果动作有相似的范围和单位,可以将所有动作的噪声参数设置为相同的值。

例如,对于具有两个操作的代理,将每个操作的标准偏差设置为不同的值,同时对两个标准偏差使用相同的衰减率。

选择= rlTD3AgentOptions;opt. targetpolicymoothmodel . standarddeviation = [0.1 0.2];opt.TargetPolicySmoothModel.StandardDeviationDecayRate = 1的军医;

策略更新之间的步骤数,指定为正整数。

平滑因子为目标的演员和评论家更新,指定为正标量小于或等于1的更多信息,请参见目标更新方法

目标参与者和评论家更新之间的步骤数,指定为正整数。有关更多信息,请参见目标更新方法

选项清除训练前的经验缓冲,指定为逻辑值。

选项用于保存剂,指定为逻辑值时保存缓冲器中的数据的体验。该选项在训练中都适用保存时,候选药物和节约试剂时使用节省功能。

对于一些代理,例如那些具有较大的经验缓冲区和基于图像的观察的代理,保存它们的经验缓冲区所需的内存很大。在这种情况下,为了不保存经验缓冲区数据,设置SaveExperienceBufferWithAgent错误的

如果您计划进一步培训所保存的代理,可以从以前的经验缓冲区作为起点开始培训。在本例中,setSaveExperienceBufferWithAgent真正的

使用递归神经网络时的最大批量训练轨迹长度,指定为正整数。该值必须大于1当使用递归神经网络和1除此以外。

随机经验小批的大小,指定为一个正整数。在每个训练集中,agent在计算梯度时从经验缓冲区中随机采样经验,以更新临界属性。大的小批量在计算梯度时减少了方差,但增加了计算工作量。

用于估计策略价值的未来奖励数量,指定为正整数。请参阅[1](第7章)了解更多细节。

用于估计策略价值的未来奖励数量,指定为正整数。有关详细信息,请参见[1]的第7章。

经验缓冲区大小,指定为一个正整数。在培训过程中,代理使用小批量从缓冲随机抽样的经验计算的更新。

试剂的采样时间,指定为正标量。

在一个模型金宝app®环境,代理被执行每采样时间仿真时间秒。

在MATLAB®环境中,每当环境进步时,代理就会被执行。然而,采样时间返回的输出经验中连续元素之间的时间间隔是多少SIM卡火车

贴现因子应用于培训期间的未来奖励,指定为小于或等于1的正标量。

对象功能

rlTD3Agent 双延迟深度确定性策略梯度强化学习主体

例子

全部收缩

这个例子显示了如何创建一个TD3剂的选择对象。

创建一个rlTD3AgentOptions对象,该对象指定迷你批处理大小。

选择= rlTD3AgentOptions(“MiniBatchSize”48)
[1x1 rl.option. rlTD3AgentOptions属性:TargetPolicySmoothModel: [1x1 rl.option。GaussianActionNoise] PolicyUpdateFrequency: 2 TargetSmoothFactor: 0.0050 TargetUpdateFrequency: 2 ResetExperienceBufferBeforeTraining: 1 SaveExperienceBufferWithAgent: 0 SequenceLength: 1 MiniBatchSize: 48 NumStepsToLookAhead: 1 ExperienceBufferLength: 10000 SampleTime: 1 DiscountFactor: 0.9900

您可以修改使用点符号的选项。例如,设置所述试剂的样品的时间来0.5

opt.SampleTime = 0.5;

算法

全部展开

兼容性的考虑

全部展开

不建议从R2021a开始

不建议从R2021a开始

参考文献

Richard S. Sutton和Andrew G. Barto。强化学习:简介.第二版。自适应计算和机器学习。麻省理工学院出版社,2018年。

在R2020A中介​​绍