rlDDPGAgentOptions

DDPG代理选项

全部展开页面

描述

使用一个rlDDPGAgentOptions对象指定深度确定策略梯度(DDPG)代理的选项。要创建DDPG代理，请使用rlDDPGAgent．

有关更多信息，请参见深度确定性策略梯度代理．

有关不同类型的强化学习代理的更多信息，请参见强化学习代理．

创建

语法

选择= rlDDPGAgentOptions

选择= rlDDPGAgentOptions(名称、值)

描述

选择= rlDDPGAgentOptions在使用所有默认选项创建DDPG代理时，创建一个options对象作为参数。可以使用点表示法修改对象属性。

例子

选择= rlDDPGAgentOptions (名称,值）设置选项属性使用名称-值对。例如,rlDDPGAgentOptions (DiscountFactor, 0.95)创建贴现因子为的选项集0.95．可以指定多个名称-值对。将每个属性名用引号括起来。

属性

全部展开

`NoiseOptions`- - - - - -噪声模型的选择
`OrnsteinUhlenbeckActionNoise`对象

噪声模型选项，指定为OrnsteinUhlenbeckActionNoise对象。有关噪声模型的更多信息，请参见噪声模型．

对于具有多个动作的agent，如果动作的范围和单位不同，那么每个动作可能需要不同的噪声模型参数。如果动作有相似的范围和单位，可以将所有动作的噪声参数设置为相同的值。

例如，对于具有两个操作的代理，将每个操作的标准偏差设置为不同的值，同时对两个标准偏差使用相同的衰减率。

选择= rlDDPGAgentOptions;opt.ExplorationModel.StandardDeviation = [0.1 0.2];opt.ExplorationModel.StandardDeviationDecayRate = 1的军医;

`TargetSmoothFactor`- - - - - -平滑因子的目标演员和评论家更新
`1 e - 3`(默认)|小于等于1的正标量

目标演员和影评人更新的平滑因子，指定为小于等于1的正标量。有关更多信息，请参见目标更新方法．

`TargetUpdateFrequency`- - - - - -目标演员和影评人更新之间的步骤数
`1`(默认)|正整数

目标参与者和评论家更新之间的步骤数，指定为正整数。有关更多信息，请参见目标更新方法．

`ResetExperienceBufferBeforeTraining`- - - - - -清除经验缓冲区的选项
`真正的`(默认)|`假`

选项用于在训练前清除经验缓冲区，指定为逻辑值。

`SaveExperienceBufferWithAgent`- - - - - -选择保存经验缓冲区
`假`(默认)|`真正的`

在保存代理时保存经验缓冲区数据的选项，指定为逻辑值。此选项适用于在培训期间保存候选代理以及使用保存函数。

对于一些代理，例如那些具有较大的经验缓冲区和基于图像的观察的代理，保存它们的经验缓冲区所需的内存很大。在这种情况下，为了不保存经验缓冲区数据，设置SaveExperienceBufferWithAgent来假．

如果您计划进一步培训所保存的代理，可以从以前的经验缓冲区作为起点开始培训。在本例中，setSaveExperienceBufferWithAgent来真正的．

`SequenceLength`- - - - - -使用RNN时的最大批量训练轨迹长度
`1`(默认)|正整数

使用递归神经网络时的最大批量训练轨迹长度，指定为正整数。该值必须大于1当使用递归神经网络和1否则。

`MiniBatchSize`- - - - - -随机经验小批量的大小
`64`(默认)|正整数

随机经验小批的大小，指定为一个正整数。在每个训练集中，agent在计算梯度时从经验缓冲区中随机采样经验，以更新临界属性。大的小批量在计算梯度时减少了方差，但增加了计算工作量。

`NumStepsToLookAhead`- - - - - -用于估计保单价值的未来奖励数量
`1`(默认)|正整数

用于估计策略价值的未来奖励数量，指定为正整数。请参阅[1](第7章)了解更多细节。

用于估计策略价值的未来奖励数量，指定为正整数。有关更多信息，请参阅[1]的第7章。

`ExperienceBufferLength`- - - - - -经验的缓冲区大小
`10000`(默认)|正整数

体验缓冲区大小，指定为正整数。在训练过程中，代理使用从缓冲区中随机抽样的一小批经验计算更新。

`SampleTime`- - - - - -药剂取样时间
`1`(默认)|积极的标量

试剂的采样时间，指定为正标量。

在一个模型金宝app^®环境中，代理被执行SampleTime模拟时间的秒数。

在MATLAB^®环境中，每当环境进步时，代理就会被执行。然而,SampleTime返回的输出经验中连续元素之间的时间间隔是多少sim卡或火车．

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|小于等于1的正标量

贴现因子应用于培训期间的未来奖励，指定为小于或等于1的正标量。

对象的功能

rlDDPGAgent 深度确定性策略梯度强化学习主体

例子

全部折叠

创建DDPG代理选项对象

打开生活的脚本

这个示例展示了如何创建DDPG代理选项对象。

创建一个rlDDPGAgentOptions对象，该对象指定迷你批处理大小。

选择= rlDDPGAgentOptions (“MiniBatchSize”48)

[1x1 rl.option. opt = rlDDPGAgentOptions with properties:OrnsteinUhlenbeckActionNoise] TargetSmoothFactor: 1.0000e-03 TargetUpdateFrequency: 1 ResetExperienceBufferBeforeTraining: 1 SaveExperienceBufferWithAgent: 0 SequenceLength: 1 MiniBatchSize: 48 NumStepsToLookAhead: 1 ExperienceBufferLength: 10000 SampleTime: 1 DiscountFactor: 0.9900

您可以使用点符号修改选项。例如，将代理示例时间设置为0．5．

opt.SampleTime = 0.5;

算法

全部展开

噪声模型

DDPG agents使用Ornstein-Uhlenbeck行为噪声模型进行勘探。

Ornstein-Uhlenbeck行动噪音

一个OrnsteinUhlenbeckActionNoise对象具有以下数值属性。

财产	描述	默认值
`InitialAction`	噪声模型作用的初始值	`0`
`的意思是`	噪声模型的意思	`0`
`MeanAttractionConstant`	指定噪声模型输出吸引到均值的速度的常数	`0．15`
`StandardDeviationDecayRate`	标准差的衰减率	`0`
`StandardDeviation`	噪声模型标准差	`0．3`
`StandardDeviationMin`	最低标准偏差	`0`

在每个样本时间步长k，噪声值v (k)是用下列公式更新的，在哪里Ts是agent的采样时间，初始值v(1)由InitialAction参数。

v(k+1) = v(k) + MeanAttractionConstant。*(意思是- v (k))。* Ts + StandardDeviation (k)。* randn(大小(意味着))。* sqrt (Ts)

在每个样本时间步长，标准偏差衰减如下代码所示。

decayedStandardDeviation = StandardDeviation (k)。* (1 - StandardDeviationDecayRate);StandardDeviation (k + 1) = max (decayedStandardDeviation StandardDeviationMin);

你可以用这个简单公式计算需要多少个样本才能让标准差减半。

半衰期=日志(0.5)/日志(1-StandardDeviationDecayRate);

对于连续动作信号，适当设定噪声标准差以鼓励探索是很重要的。设置是很常见的StandardDeviation * sqrt (Ts)在你行动范围的1%到10%之间。

如果你的代理在局部最优上收敛得太快，通过增加噪声量来促进代理探索;也就是增加标准差。此外，为了增加探索，你可以减少StandardDeviationDecayRate．

兼容性的考虑

全部展开

中定义噪声概率分布的属性名`OrnsteinUhlenbeckActionNoise`对象已经发生了变化

不建议从R2021a开始

定义Ornstein-Uhlenbeck (OU)噪声模型概率分布的属性被重新命名。DDPG代理使用OU噪声进行探测。

的方差属性已重命名StandardDeviation．
的VarianceDecayRate属性已重命名StandardDeviationDecayRate．
的VarianceMin属性已重命名StandardDeviationMin．

这些属性的默认值保持不变。当一个OrnsteinUhlenbeckActionNoise从以前的MATLAB版本中保存的噪声对象被加载，的值方差，VarianceDecayRate,VarianceMin复制在StandardDeviation，StandardDeviationDecayRate,StandardDeviationMin,分别。

的方差，VarianceDecayRate,VarianceMin属性仍然可以工作，但不推荐使用。要定义OU噪声模型的概率分布，请使用新的属性名称。

更新代码

这个表显示了如何更新代码以使用新的属性名rlDDPGAgentOptions对象ddpgopt．

不推荐	推荐
ddpgopt.NoiseOptions.Variance = 0.5;	ddpgopt.NoiseOptions.StandardDeviation = 0.5;
ddpgopt.NoiseOptions.VarianceDecayRate = 0.1;	ddpgopt.NoiseOptions.StandardDeviationDecayRate = 0.1;
ddpgopt.NoiseOptions.VarianceMin = 0;	ddpgopt.NoiseOptions.StandardDeviationMin = 0;

不推荐

DDPG代理的目标更新方法设置已更改

行为在R2020a中改变

DDPG代理的目标更新方法设置已更改。以下更改需要对代码进行更新:

的TargetUpdateMethod选项已被删除。现在，DDPG代理确定目标更新方法基于TargetUpdateFrequency和TargetSmoothFactor选项值。
的默认值TargetUpdateFrequency已经从4来1．

要使用下列目标更新方法之一，请设置TargetUpdateFrequency和TargetSmoothFactor属性显示。

更新方法	`TargetUpdateFrequency`	`TargetSmoothFactor`
平滑	`1`	不到`1`
周期	大于`1`	`1`
周期平滑(R2020a中的新方法)	大于`1`	不到`1`

默认的目标更新配置，它是平滑更新TargetSmoothFactor的价值０．００１，保持不变。

更新代码

这个表格显示了…的一些典型用法rlDDPGAgentOptions以及如何更新代码以使用新的选项配置。

不推荐	推荐
选择= rlDDPGAgentOptions(“TargetUpdateMethod”、“平滑”);	选择= rlDDPGAgentOptions;
选择= rlDDPGAgentOptions(“TargetUpdateMethod”、“周期”);	选择= rlDDPGAgentOptions;opt.TargetUpdateFrequency = 4;opt.TargetSmoothFactor = 1;
选择= rlDDPGAgentOptions;opt.TargetUpdateMethod =“周期性”;opt.TargetUpdateFrequency = 5;	选择= rlDDPGAgentOptions;opt.TargetUpdateFrequency = 5;opt.TargetSmoothFactor = 1;

不推荐

参考文献

Richard S. Sutton和Andrew G. Barto。强化学习:简介．第二版。自适应计算和机器学习。麻省理工学院出版社，2018年。

另请参阅

主题

深度确定性策略梯度代理

介绍了R2019a

rlDDPGAgentOptions

描述

创建

语法

描述

属性

`NoiseOptions`- - - - - -噪声模型的选择
`OrnsteinUhlenbeckActionNoise`对象

`TargetSmoothFactor`- - - - - -平滑因子的目标演员和评论家更新
`1 e - 3`(默认)|小于等于1的正标量

`TargetUpdateFrequency`- - - - - -目标演员和影评人更新之间的步骤数
`1`(默认)|正整数

`ResetExperienceBufferBeforeTraining`- - - - - -清除经验缓冲区的选项
`真正的`(默认)|`假`

`SaveExperienceBufferWithAgent`- - - - - -选择保存经验缓冲区
`假`(默认)|`真正的`

`SequenceLength`- - - - - -使用RNN时的最大批量训练轨迹长度
`1`(默认)|正整数

`MiniBatchSize`- - - - - -随机经验小批量的大小
`64`(默认)|正整数

`NumStepsToLookAhead`- - - - - -用于估计保单价值的未来奖励数量
`1`(默认)|正整数

`ExperienceBufferLength`- - - - - -经验的缓冲区大小
`10000`(默认)|正整数

`SampleTime`- - - - - -药剂取样时间
`1`(默认)|积极的标量

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|小于等于1的正标量

对象的功能

例子

创建DDPG代理选项对象

算法

噪声模型

兼容性的考虑

中定义噪声概率分布的属性名`OrnsteinUhlenbeckActionNoise`对象已经发生了变化

DDPG代理的目标更新方法设置已更改

参考文献

另请参阅

主题

强化学习工具箱文档

金宝app

强化学习与MATLAB和Simulink金宝app

rlDDPGAgentOptions

描述

创建

语法

描述

属性

NoiseOptions- - - - - -噪声模型的选择OrnsteinUhlenbeckActionNoise对象

TargetSmoothFactor- - - - - -平滑因子的目标演员和评论家更新1 e - 3(默认)|小于等于1的正标量

TargetUpdateFrequency- - - - - -目标演员和影评人更新之间的步骤数1(默认)|正整数

ResetExperienceBufferBeforeTraining- - - - - -清除经验缓冲区的选项真正的(默认)|假

SaveExperienceBufferWithAgent- - - - - -选择保存经验缓冲区假(默认)|真正的

SequenceLength- - - - - -使用RNN时的最大批量训练轨迹长度1(默认)|正整数

MiniBatchSize- - - - - -随机经验小批量的大小64(默认)|正整数

NumStepsToLookAhead- - - - - -用于估计保单价值的未来奖励数量1(默认)|正整数

ExperienceBufferLength- - - - - -经验的缓冲区大小10000(默认)|正整数

SampleTime- - - - - -药剂取样时间1(默认)|积极的标量

DiscountFactor- - - - - -折现系数0.99(默认)|小于等于1的正标量

对象的功能

例子

创建DDPG代理选项对象

算法

噪声模型

兼容性的考虑

中定义噪声概率分布的属性名OrnsteinUhlenbeckActionNoise对象已经发生了变化

DDPG代理的目标更新方法设置已更改

参考文献

另请参阅

主题

强化学习工具箱文档

金宝app

强化学习与MATLAB和Simulink金宝app

`NoiseOptions`- - - - - -噪声模型的选择
`OrnsteinUhlenbeckActionNoise`对象

`TargetSmoothFactor`- - - - - -平滑因子的目标演员和评论家更新
`1 e - 3`(默认)|小于等于1的正标量

`TargetUpdateFrequency`- - - - - -目标演员和影评人更新之间的步骤数
`1`(默认)|正整数

`ResetExperienceBufferBeforeTraining`- - - - - -清除经验缓冲区的选项
`真正的`(默认)|`假`

`SaveExperienceBufferWithAgent`- - - - - -选择保存经验缓冲区
`假`(默认)|`真正的`

`SequenceLength`- - - - - -使用RNN时的最大批量训练轨迹长度
`1`(默认)|正整数

`MiniBatchSize`- - - - - -随机经验小批量的大小
`64`(默认)|正整数

`NumStepsToLookAhead`- - - - - -用于估计保单价值的未来奖励数量
`1`(默认)|正整数

`ExperienceBufferLength`- - - - - -经验的缓冲区大小
`10000`(默认)|正整数

`SampleTime`- - - - - -药剂取样时间
`1`(默认)|积极的标量

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|小于等于1的正标量

中定义噪声概率分布的属性名`OrnsteinUhlenbeckActionNoise`对象已经发生了变化