主要内容

rlTD3AgentOptions

选择TD3代理

自从R2020a

描述

使用一个rlTD3AgentOptions对象指定选项twin-delayed深决定性策略梯度(TD3)代理。创建一个TD3代理,使用rlTD3Agent

更多信息见Twin-Delayed深确定性(TD3)政策梯度代理

更多信息在不同类型的强化学习代理,看看强化学习代理

创建

描述

选择= rlTD3AgentOptions将创建一个选项对象作为参数使用在创建TD3代理使用所有缺省选项。您可以修改对象属性使用点符号。

例子

选择= rlTD3AgentOptions (名称,值)设置选项属性使用名称-值对。例如,rlTD3AgentOptions (DiscountFactor, 0.95)创建一个选项设定的折现系数0.95。您可以指定多个名称-值对。在报价附上每个属性的名字。

属性

全部展开

噪声模型选项,指定为一个GaussianActionNoise对象或一个OrnsteinUhlenbeckActionNoise对象。关于噪声模型的更多信息,请参阅噪声模型

代理与多个操作,如果操作有不同的范围和单位,每个操作可能需要不同的噪声模型参数。如果有类似的行为范围和单位,你可以设置噪声参数为所有操作相同的值。

例如,代理的两个动作,每个动作到另一个值的标准偏差时使用相同的衰变率两个标准差。

选择= rlTD3AgentOptions;opt.ExplorationModel。StandardDeviation= [0.1 0.2]; opt.ExplorationModel.StandardDeviationDecayRate = 1e-4;

使用Ornstein-Uhlenbeck动作噪声,首先创建一个默认的OrnsteinUhlenbeckActionNoise对象。然后,指定任何默认使用点符号模型属性。

选择= rlTD3AgentOptions;opt.ExplorationModel = rl.option.OrnsteinUhlenbeckActionNoise;opt.ExplorationModel。StandardDeviation= 0.05;

目标平滑噪声模型选项,指定为一个GaussianActionNoise对象。这个模型可以帮助政策利用行动核反应能量高的估计。关于噪声模型的更多信息,请参阅噪声模型

代理与多个操作,如果操作有不同的范围和单位,每个操作可能需要不同的平滑噪声模型参数。如果有类似的行为范围和单位,你可以设置噪声参数为所有操作相同的值。

例如,代理的两个动作,每个动作到另一个值的标准偏差时使用相同的衰变率两个标准差。

选择= rlTD3AgentOptions;opt.TargetPolicySmoothModel。StandardDeviation= [0.1 0.2]; opt.TargetPolicySmoothModel.StandardDeviationDecayRate = 1e-4;

许多步骤之间政策更新,指定为一个正整数。

演员优化选项,指定为一个rlOptimizerOptions对象。它允许您指定学习速率等演员的训练参数的估计值,梯度阈值,以及优化算法及其参数。有关更多信息,请参见rlOptimizerOptionsrlOptimizer

评论家优化选项,指定为一个rlOptimizerOptions对象。它允许您指定训练参数的评论家接近者,如学习速率梯度阈值,以及优化算法及其参数。有关更多信息,请参见rlOptimizerOptionsrlOptimizer

批处理数据调整选项,指定为一个rlBehaviorCloningRegularizerOptions对象。这些选项通常用于代理离线训练,从现有的数据。如果你离开这个选项空,使用不规范。

有关更多信息,请参见rlBehaviorCloningRegularizerOptions

例子:opt.BatchDataRegularizerOptions = rlBehaviorCloningRegularizerOptions (BehaviorCloningRegularizerWeight = 10)

平滑系数为目标的演员和评论家更新,指定为一个积极的标量小于或等于1。有关更多信息,请参见目标更新方法

许多步骤之间目标的演员和评论家更新,指定为一个正整数。有关更多信息,请参见目标更新方法

选择清除缓冲区之前培训经验,指定为一个逻辑值。

最大batch-training轨迹长度使用递归神经网络时,指定为一个正整数。这个值必须大于1当使用递归神经网络1否则。

大小的随机mini-batch经验,指定为一个正整数。在每次训练集,代理经验的随机样本经验缓冲区时计算梯度更新评论家属性。大型mini-batches减少方差计算梯度但增加计算工作量。

使用未来的奖励数量估计的值政策,指定为一个正整数。有关更多信息,请参见[1],第7章。

体验缓冲区大小,指定为一个正整数。在培训期间,代理计算更新使用mini-batch经历随机取样的缓冲区。

样本代理的时候,作为一个积极的标量或指定1。设置这个参数1支持基于事件的模拟。

在一个模型金宝app®环境中,RL代理块中执行每一个指定的代理SampleTime秒的仿真时间。如果SampleTime1块继承了样本时间从母公司子系统。

在MATLAB®环境中,代理执行每一次进步的环境。在这种情况下,SampleTime之间的时间间隔连续元素返回的输出的经验吗sim卡火车。如果SampleTime1之间的时间间隔连续元素返回的输出经验反映了事件触发代理执行的时机。

折现系数应用于未来的回报在训练,指定为一个积极的标量小于或等于1。

对象的功能

rlTD3Agent Twin-delayed深确定性(TD3)政策梯度强化学习代理

例子

全部折叠

创建一个rlTD3AgentOptions对象,该对象指定mini-batch大小。

选择= rlTD3AgentOptions (MiniBatchSize = 48)
选择= rlTD3AgentOptions属性:ExplorationModel: [1 x1 rl.option。GaussianActionNoise] TargetPolicySmoothModel: [1 x1 rl.option。GaussianActionNoise] PolicyUpdateFrequency: 2 ActorOptimizerOptions: [1x1 rl.option.rlOptimizerOptions] CriticOptimizerOptions: [1x2 rl.option.rlOptimizerOptions] BatchDataRegularizerOptions: [] TargetSmoothFactor: 0.0050 TargetUpdateFrequency: 2 ResetExperienceBufferBeforeTraining: 0 SequenceLength: 1 MiniBatchSize: 48 NumStepsToLookAhead: 1 ExperienceBufferLength: 10000 SampleTime: 1 DiscountFactor: 0.9900 InfoToSave: [1x1 struct]

您可以修改选项使用点符号。例如,设置代理样品时间0.5

opt.SampleTime = 0.5;

算法

全部展开

引用

[1]萨顿,理查德·S。,安德鲁·g·Barto。强化学习:介绍。第二版。自适应计算和机器学习。剑桥:麻省理工学院出版社,2018年。

版本历史

介绍了R2020a

全部展开