rlTD3AgentOptions

TD3代理的选项

在第页中展开全部

描述

使用rlTD3AgentOptions对象指定双延迟深度确定性策略梯度(TD3)代理的选项。要创建TD3代理，请使用RLTD3试剂

有关更多信息，请参阅双延迟深度确定性策略梯度代理．

有关不同类型的强化学习代理的更多信息，请参阅强化学习代理．

创造

语法

选择= rlTD3AgentOptions

opt=rlTD3AgentOptions（名称、值）

描述

选择= rlTD3AgentOptions在使用所有默认选项创建TD3代理时，创建一个options对象作为参数。可以使用点表示法修改对象属性。

实例

选择= rlTD3AgentOptions (名称,值)设置选项属性使用名称-值对。例如,rlTD3AgentOptions (DiscountFactor, 0.95)创建贴现因子为的选项集0.95. 可以指定多个名称-值对。用引号将每个属性名称括起来。

属性

全部展开

`ExplorationModel`—勘探噪声模型选项
`GaussianActionNoise`对象（默认）|`OrnsteinUhlenbeckActionNoise`对象

噪波模型选项，指定为GaussianActionNoise对象或一个OrnsteinUhlenbeckActionNoise对象有关噪波模型的详细信息，请参见噪声模型．

对于具有多个动作的代理，如果动作具有不同的范围和单位，则每个动作可能需要不同的噪波模型参数。如果动作具有相似的范围和单位，则可以将所有动作的噪波参数设置为相同的值。

例如，对于具有两个操作的代理，将每个操作的标准偏差设置为不同的值，同时对两个标准偏差使用相同的衰减率。

选择= rlTD3AgentOptions;opt.ExplorationModel.StandardDeviation = [0.1 0.2];opt.ExplorationModel.StandardDeviationDecayRate = 1的军医;

`TargetPolicySmoothModel`—目标平滑噪声模型选项
`GaussianActionNoise`对象

目标平滑噪声模型选项，指定为GaussianActionNoise对象。该模型有助于政策利用高q值估计的行动。有关噪声模型的更多信息，请参见噪声模型．

对于具有多个动作的代理，如果动作具有不同的范围和单位，则每个动作可能需要不同的平滑噪波模型参数。如果动作具有相似的范围和单位，则可以将所有动作的噪波参数设置为相同的值。

例如，对于具有两个操作的代理，将每个操作的标准偏差设置为不同的值，同时对两个标准偏差使用相同的衰减率。

opt=rlTD3AgentOptions；opt.TargetPolicySmoothModel.StandardDeviation=[0.1 0.2]；opt.TargetPolicySmoothModel.StandardDecyRate=1e-4；

`策略更新频率`—策略更新之间的步骤数
`2.`（默认）|正整数

策略更新之间的步骤数，指定为正整数。

`TargetSmoothFactor`—平滑因子的目标演员和评论家更新
`０．００５`（默认）|小于等于1的正标量

目标演员和影评人更新的平滑因子，指定为小于等于1的正标量。有关更多信息，请参见目标更新方法．

`TargetUpdateFrequency`—目标演员和影评人更新之间的步骤数
`2.`（默认）|正整数

目标参与者和评论家更新之间的步骤数，指定为正整数。有关更多信息，请参见目标更新方法．

`培训前重置经验缓冲区`—清除经验缓冲区的选项
`真正的`（默认）|`假`

选项用于在训练前清除经验缓冲区，指定为逻辑值。

`SaveExperienceBufferWithAgent`—选择保存经验缓冲区
`假`（默认）|`真正的`

在保存代理时保存经验缓冲区数据的选项，指定为逻辑值。此选项适用于在培训期间保存候选代理以及使用保存函数。

对于一些代理，例如那些具有较大的经验缓冲区和基于图像的观察的代理，保存它们的经验缓冲区所需的内存很大。在这种情况下，为了不保存经验缓冲区数据，设置SaveExperienceBufferWithAgent到假．

如果您计划进一步培训所保存的代理，可以从以前的经验缓冲区作为起点开始培训。在本例中，setSaveExperienceBufferWithAgent到真正的．

`SequenceLength`—使用RNN时的最大批量训练轨迹长度
`1.`（默认）|正整数

使用递归神经网络时的最大批量训练轨迹长度，指定为正整数。该值必须大于1.当使用递归神经网络和1.否则

`MiniBatchSize`—随机经验小批量的大小
`64`（默认）|正整数

随机经验小批的大小，指定为一个正整数。在每个训练集中，agent在计算梯度时从经验缓冲区中随机采样经验，以更新临界属性。大的小批量在计算梯度时减少了方差，但增加了计算工作量。

`NumStepsToLookAhead`—用于估计保单价值的未来奖励数量
`1.`（默认）|正整数

用于估计策略价值的未来奖励数量，指定为正整数。请参阅[1](第7章)了解更多细节。

用于估计策略价值的未来奖励数量，指定为正整数。有关更多信息，请参阅[1]的第7章。

`ExperienceBufferLength`—经验缓冲区大小
`10000`（默认）|正整数

经验缓冲区大小，指定为正整数。在训练期间，代理使用从缓冲区随机抽样的一小批经验计算更新。

`SampleTime`—药剂取样时间
`1.`（默认）|正标量

试剂的采样时间，指定为正标量。

在一个模型金宝app^®环境中，代理将在每个SampleTime模拟时间的秒数。

在MATLAB^®环境中，每当环境进步时，代理就会被执行。然而,SampleTime返回的输出经验中连续元素之间的时间间隔是多少sim卡或火车．

`DiscountFactor`—折现系数
`0.99`（默认）|小于等于1的正标量

贴现因子应用于培训期间的未来奖励，指定为小于或等于1的正标量。

对象的功能

RLTD3试剂 双延迟深度确定性策略梯度强化学习主体

例子

全部折叠

创建TD3代理选项对象

打开生活的脚本

这个例子展示了如何创建一个TD3代理选项对象。

创建一个rlTD3AgentOptions对象，该对象指定迷你批处理大小。

opt=rlTD3AgentOptions(“MiniBatchSize”,48)

opt=rlTD3AgentOptions，属性为：ExplorationModel:[1x1 rl.option.GaussianActionNoise]TargetPolicySmoothModel:[1x1 rl.option.GaussianActionNoise]PolicyUpdateFrequency:2 TargetSmoothFactor:0.0050 TargetUpdateFrequency:2 ResetExperienceBufferBefore培训：1 SaveExperienceBufferWithAgent:0 SequenceLength:1 MiniBatchSize:48 NumStepsToLookAhead:1 ExperienceBufferLength:10000采样时间：1折扣因子：0.9900

可以使用点表示法修改选项。例如，将代理采样时间设置为0．5．

opt.SampleTime = 0.5;

算法

全部展开

噪声模型

高斯作用噪声

A.GaussianActionNoise对象具有以下数值属性。

财产	描述	默认值(`ExplorationModel`)	默认值(`TargetPolicySmoothModel`)
`的意思是`	噪声模型均值	`0`	`0`
`StandardDeviationDecayRate`	标准差的衰减率	`0`	`0`
`StandardDeviation`	噪声模型标准差	`sqrt（0.1）`	`sqrt（0.2）`
`StandardDeviationMin`	最小标准偏差，必须小于`StandardDeviation`	`0.01`	`0.01`
`LowerLimit`	噪声采样下限	`-Inf`	`-0.5`
`UpperLimit`	噪声样本上限	`正`	`0．5`

在每个时间步K，高斯噪声v抽样如下代码所示。

w=平均值+随机数（作用大小）。*标准偏差（k）；v（k+1）=最小值（最大值（w，下限），上限）；

其中，初始值v（1）由InitialAction参数。在每个样本时间步长，标准偏差衰减如下代码所示。

decayedStandardDeviation = StandardDeviation (k)。* (1 - StandardDeviationDecayRate);StandardDeviation (k + 1) = max (decayedStandardDeviation StandardDeviationMin);

Ornstein-Uhlenbeck行动噪音

一OrnsteinUhlenbeckActionNoise对象具有以下数值属性。

财产	描述	默认值
`InitialAction`	噪声模型作用的初始值	`0`
`的意思是`	噪声模型均值	`0`
`MeanAttractionConstant`	常数，指定噪声模型输出吸引到平均值的速度	`0．15`
`StandardDeviationDecayRate`	标准差的衰减率	`0`
`StandardDeviation`	噪声模型标准差	`0．3`
`StandardDeviationMin`	最低标准偏差	`0`

在每个样本时间步长K，噪音值v (k)是用下列公式更新的，在哪里Ts是agent的采样时间，初始值v(1)由InitialAction参数。

v（k+1）=v（k）+平均吸引常数。*（平均值-v（k））.*Ts+标准偏差（k）。*randn（大小（平均值））.*sqrt（Ts）

在每个样本时间步长，标准偏差衰减如下代码所示。

decayedStandardDeviation = StandardDeviation (k)。* (1 - StandardDeviationDecayRate);StandardDeviation (k + 1) = max (decayedStandardDeviation StandardDeviationMin);

您可以使用此简单公式计算标准偏差减半所需的样本数。

半衰期=对数（0.5）/对数（1-标准偏差十年期）；

对于连续动作信号，适当设定噪声标准差以鼓励探索是很重要的。设置是很常见的StandardDeviation * sqrt (Ts)在你行动范围的1%到10%之间。

如果你的代理在局部最优上收敛得太快，通过增加噪声量来促进代理探索;也就是增加标准差。此外，为了增加探索，你可以减少StandardDeviationDecayRate．

兼容性的考虑

全部展开

定义环境中噪声概率分布的特性`GaussianActionNoise`对象已经发生了变化

不建议从R2021a开始

定义高斯行动噪声模型概率分布的特性已经改变。TD3代理使用此噪声模型进行探测和目标策略平滑。

这个方差财产已被StandardDeviation所有物
这个VarianceDecayRate财产已被StandardDeviationDecayRate所有物
这个VarianceMin财产已被StandardDeviationMin所有物

当一个GaussianActionNoise从以前的MATLAB版本中保存的噪声对象被加载，值VarianceDecayRate复制到StandardDeviationDecayRate，而方差和VarianceMin抄送StandardDeviation和StandardDeviationMin分别地

这个方差,VarianceDecayRate,VarianceMin属性仍然有效，但不建议使用。要定义高斯行动噪声模型的概率分布，请使用新的属性名称。

更新代码

这个表显示了如何更新代码以使用新的属性名rlTD3AgentOptions对象td3opt．

不推荐

定义环境中噪声概率分布的属性名称`OrnsteinUhlenbeckActionNoise`对象已经发生了变化

不建议从R2021a开始

定义Ornstein-Uhlenbeck (OU)噪声模型概率分布的属性被重新命名。TD3 agent使用OU噪声进行探测。

这个方差属性已重命名StandardDeviation．
这个VarianceDecayRate属性已重命名StandardDeviationDecayRate．
这个VarianceMin属性已重命名StandardDeviationMin．

这些属性的默认值保持不变。当一个OrnsteinUhlenbeckActionNoise从以前的MATLAB版本中保存的噪声对象被加载，的值方差,VarianceDecayRate,VarianceMin复制在StandardDeviation,StandardDeviationDecayRate,StandardDeviationMin分别地

这个方差,VarianceDecayRate,VarianceMin属性仍然有效，但不建议使用。要定义OU噪波模型的概率分布，请改用新的属性名称。

更新代码

这个表显示了如何更新代码以使用新的属性名rlTD3AgentOptions对象td3opt．

不推荐	推荐
td3opt.ExplorationModel.Variance=0.5；	td3opt.ExplorationModel。StandardDeviation= sqrt(0.5);
td3opt.ExplorationModel.VarianceDecayRate=0.1；	td3opt.ExplorationModel。StandardDeviationDecayRate = 0.1;
td3opt.ExplorationModel。VarianceMin = 0.1;	td3opt.ExplorationModel。StandardDeviationMin= sqrt(0.1);
td3opt.TargetPolicySmoothModel。方差= 0.5;	td3opt.TargetPolicySmoothModel.StandardDeviation=sqrt（0.5）；
td3opt.TargetPolicySmoothModel。VarianceDecayRate = 0.1;	td3opt.TargetPolicySmoothModel.StandardDecyRate=0.1；
td3opt.TargetPolicySmoothModel.VarianceMin=0.1；	td3opt.TargetPolicySmoothModel。StandardDeviationMin= sqrt(0.1);

参考文献

Richard S. Sutton和Andrew G. Barto。强化学习：导论．第二版。自适应计算和机器学习。麻省理工学院出版社，2018年。

另请参阅

主题

双延迟深度确定性策略梯度代理

介绍了R2020a

rlTD3AgentOptions

描述

创造

语法

描述

属性

`ExplorationModel`—勘探噪声模型选项
`GaussianActionNoise`对象（默认）|`OrnsteinUhlenbeckActionNoise`对象

`TargetPolicySmoothModel`—目标平滑噪声模型选项
`GaussianActionNoise`对象

`策略更新频率`—策略更新之间的步骤数
`2.`（默认）|正整数

`TargetSmoothFactor`—平滑因子的目标演员和评论家更新
`０．００５`（默认）|小于等于1的正标量

`TargetUpdateFrequency`—目标演员和影评人更新之间的步骤数
`2.`（默认）|正整数

`培训前重置经验缓冲区`—清除经验缓冲区的选项
`真正的`（默认）|`假`

`SaveExperienceBufferWithAgent`—选择保存经验缓冲区
`假`（默认）|`真正的`

`SequenceLength`—使用RNN时的最大批量训练轨迹长度
`1.`（默认）|正整数

`MiniBatchSize`—随机经验小批量的大小
`64`（默认）|正整数

`NumStepsToLookAhead`—用于估计保单价值的未来奖励数量
`1.`（默认）|正整数

`ExperienceBufferLength`—经验缓冲区大小
`10000`（默认）|正整数

`SampleTime`—药剂取样时间
`1.`（默认）|正标量

`DiscountFactor`—折现系数
`0.99`（默认）|小于等于1的正标量

对象的功能

例子

创建TD3代理选项对象

算法

噪声模型

兼容性的考虑

定义环境中噪声概率分布的特性`GaussianActionNoise`对象已经发生了变化

定义环境中噪声概率分布的属性名称`OrnsteinUhlenbeckActionNoise`对象已经发生了变化

参考文献

另请参阅

主题

强化学习工具箱文档

金宝app

强化学习与MATLAB和Simulink金宝app

rlTD3AgentOptions

描述

创造

语法

描述

属性

ExplorationModel—勘探噪声模型选项GaussianActionNoise对象（默认）|OrnsteinUhlenbeckActionNoise对象

TargetPolicySmoothModel—目标平滑噪声模型选项GaussianActionNoise对象

策略更新频率—策略更新之间的步骤数2.（默认）|正整数

TargetSmoothFactor—平滑因子的目标演员和评论家更新０．００５（默认）|小于等于1的正标量

TargetUpdateFrequency—目标演员和影评人更新之间的步骤数2.（默认）|正整数

培训前重置经验缓冲区—清除经验缓冲区的选项真正的（默认）|假

SaveExperienceBufferWithAgent—选择保存经验缓冲区假（默认）|真正的

SequenceLength—使用RNN时的最大批量训练轨迹长度1.（默认）|正整数

MiniBatchSize—随机经验小批量的大小64（默认）|正整数

NumStepsToLookAhead—用于估计保单价值的未来奖励数量1.（默认）|正整数

ExperienceBufferLength—经验缓冲区大小10000（默认）|正整数

SampleTime—药剂取样时间1.（默认）|正标量

DiscountFactor—折现系数0.99（默认）|小于等于1的正标量

对象的功能

例子

创建TD3代理选项对象

算法

噪声模型

兼容性的考虑

定义环境中噪声概率分布的特性GaussianActionNoise对象已经发生了变化

定义环境中噪声概率分布的属性名称OrnsteinUhlenbeckActionNoise对象已经发生了变化

参考文献

另请参阅

主题

强化学习工具箱文档

金宝app

强化学习与MATLAB和Simulink金宝app

`ExplorationModel`—勘探噪声模型选项
`GaussianActionNoise`对象（默认）|`OrnsteinUhlenbeckActionNoise`对象

`TargetPolicySmoothModel`—目标平滑噪声模型选项
`GaussianActionNoise`对象

`策略更新频率`—策略更新之间的步骤数
`2.`（默认）|正整数

`TargetSmoothFactor`—平滑因子的目标演员和评论家更新
`０．００５`（默认）|小于等于1的正标量

`TargetUpdateFrequency`—目标演员和影评人更新之间的步骤数
`2.`（默认）|正整数

`培训前重置经验缓冲区`—清除经验缓冲区的选项
`真正的`（默认）|`假`

`SaveExperienceBufferWithAgent`—选择保存经验缓冲区
`假`（默认）|`真正的`

`SequenceLength`—使用RNN时的最大批量训练轨迹长度
`1.`（默认）|正整数

`MiniBatchSize`—随机经验小批量的大小
`64`（默认）|正整数

`NumStepsToLookAhead`—用于估计保单价值的未来奖励数量
`1.`（默认）|正整数

`ExperienceBufferLength`—经验缓冲区大小
`10000`（默认）|正整数

`SampleTime`—药剂取样时间
`1.`（默认）|正标量

`DiscountFactor`—折现系数
`0.99`（默认）|小于等于1的正标量

定义环境中噪声概率分布的特性`GaussianActionNoise`对象已经发生了变化

定义环境中噪声概率分布的属性名称`OrnsteinUhlenbeckActionNoise`对象已经发生了变化