rlDDPGAgentOptions

DDPG代理选项

展开全部页面

描述

使用一个rlDDPGAgentOptions对象指定深度确定性策略梯度(DDPG)代理的选项。要创建DDPG代理，请使用rlDDPGAgent．

有关更多信息，请参见深度确定性策略梯度(DDPG)代理．

有关不同类型的强化学习代理的更多信息，请参见强化学习代理．

创建

语法

opt = rlDDPGAgentOptions

opt = rlDDPGAgentOptions(名称，值)

描述

选择= rlDDPGAgentOptions创建一个选项对象，以在使用所有默认选项创建DDPG代理时作为参数使用。可以使用点表示法修改对象属性。

例子

选择= rlDDPGAgentOptions (名称,值）设置选项属性使用名称-值对。例如,rlDDPGAgentOptions (DiscountFactor, 0.95)创建贴现因子为的选项集0.95．可以指定多个名称-值对。将每个属性名用引号括起来。

属性

全部展开

`NoiseOptions`- - - - - -噪声模型选项
`OrnsteinUhlenbeckActionNoise`对象

噪声模型选项，指定为OrnsteinUhlenbeckActionNoise对象。有关噪声模型的更多信息，请参见噪声模型．

对于具有多个动作的智能体，如果动作具有不同的范围和单位，则每个动作可能需要不同的噪声模型参数。如果操作具有相似的范围和单位，则可以将所有操作的噪声参数设置为相同的值。

例如，对于具有两个动作的代理，将每个动作的标准差设置为不同的值，同时对两个标准差使用相同的衰减率。

opt = rlDDPGAgentOptions;opt. noiseoptions .标准差= [0.1 0.2];opt.NoiseOptions.StandardDeviationDecayRate = 1e-4;

`ActorOptimizerOptions`- - - - - -角色优化器选项
`rlOptimizerOptions`对象

对象优化器选项，指定为rlOptimizerOptions对象。它允许您指定角色逼近器的训练参数，如学习率、梯度阈值，以及优化器算法及其参数。有关更多信息，请参见rlOptimizerOptions而且rlOptimizer．

`CriticOptimizerOptions`- - - - - -评论家优化选项
`rlOptimizerOptions`对象

评论家优化器选项，指定为rlOptimizerOptions对象。它允许您指定临界逼近器的训练参数，如学习率，梯度阈值，以及优化器算法及其参数。有关更多信息，请参见rlOptimizerOptions而且rlOptimizer．

`TargetSmoothFactor`- - - - - -平滑因子的目标演员和评论家更新
`1 e - 3`(默认)|小于等于1的正标量

目标参与者和评论家更新的平滑因子，指定为小于或等于1的正标量。有关更多信息，请参见目标更新方法．

`TargetUpdateFrequency`- - - - - -目标参与者和评论家更新之间的步数
`1`(默认)|正整数

目标参与者和评论家更新之间的步数，指定为正整数。有关更多信息，请参见目标更新方法．

`ResetExperienceBufferBeforeTraining`- - - - - -清除经验缓冲区的选项
`真正的`(默认)|`假`

用于在培训之前清除经验缓冲区的选项，指定为逻辑值。

`SequenceLength`- - - - - -使用RNN时的最大批量训练轨迹长度
`1`(默认)|正整数

使用循环神经网络时的最大批量训练轨迹长度，指定为正整数。此值必须大于1当使用循环神经网络时1否则。

`MiniBatchSize`- - - - - -随机经验小批量的大小
`64`(默认)|正整数

随机经验小批的大小，指定为正整数。在每次训练过程中，智能体在计算梯度以更新批评属性时，从经验缓冲区中随机抽取经验。大的小批量在计算梯度时减少了方差，但增加了计算工作量。

`NumStepsToLookAhead`- - - - - -用于评估保单价值的未来奖励数目
`1`(默认)|正整数

用于估计策略价值的未来奖励数目，指定为正整数。更多信息请参见[1]，第7章。

注意，如果并行训练被启用(即如果一个rlTrainingOptions选项对象中的UseParallel属性设置为真正的传递给火车),那么NumStepsToLookAhead必须设置为1，否则产生错误。这保证了体验是连续存储的。

．

`ExperienceBufferLength`- - - - - -经验缓冲大小
`10000`(默认)|正整数

经验缓冲区大小，指定为正整数。在训练过程中，智能体使用从缓冲区随机采样的一小批经验计算更新。

`SampleTime`- - - - - -药剂取样时间
`1`(默认)|积极的标量|`－1`

试剂的取样时间，指定为正标量或－1．将此参数设置为－1允许基于事件的模拟。

在Simulink金宝app中^®环境中,RL代理块，在其中指定代理执行每个SampleTime秒模拟时间。如果SampleTime是－1，块从它的父子系统继承采样时间。

在MATLAB中^®环境时，每当环境前进时执行代理。在这种情况下，SampleTime输出经验中连续元素之间的时间间隔是否由返回sim卡或火车．如果SampleTime是－1，返回的输出体验中连续元素之间的时间间隔反映了触发代理执行的事件的时间。

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|小于等于1的正标量

折扣因子应用于培训期间的未来奖励，指定为小于或等于1的正标量。

对象的功能

rlDDPGAgent 深度确定性策略梯度(DDPG)强化学习代理

例子

全部折叠

创建DDPG代理选项对象

打开实时脚本

此示例显示如何创建DDPG代理选项对象。

创建一个rlDDPGAgentOptions对象，该对象指定小批处理大小。

选择rlDDPGAgentOptions(“MiniBatchSize”48)

属性:NoiseOptions: [1x1 rl.option. option.]OrnsteinUhlenbeckActionNoise] ActorOptimizerOptions: [1x1 rl.option。rlOptimizerOptions] CriticOptimizerOptions: [1x1 rl.option. option.]rlOptimizerOptions] TargetSmoothFactor: 1.0000e-03 TargetUpdateFrequency: 1 ResetExperienceBufferBeforeTraining: 1 SequenceLength: 1 MiniBatchSize: 48 NumStepsToLookAhead: 1 ExperienceBufferLength: 10000 SampleTime: 1 DiscountFactor: 0.9900 InfoToSave: [1x1 struct]

可以使用点表示法修改选项。例如，设置代理采样时间为0．5．

opt.SampleTime = 0.5;

算法

全部展开

噪声模型

DDPG代理使用Ornstein-Uhlenbeck作用噪声模型进行探索。

奥恩斯坦-乌伦贝克动作噪声

一个OrnsteinUhlenbeckActionNoise对象具有以下数值属性。

财产	描述	默认值
`InitialAction`	动作初始值	`0`
`的意思是`	噪声平均值	`0`
`MeanAttractionConstant`	指定噪声模型输出吸引均值的速度的常数	`0.15`
`StandardDeviationDecayRate`	标准差的衰减率	`0`
`StandardDeviation`	噪声标准差的初始值	`0.3`
`StandardDeviationMin`	最小标准差	`0`

在每个采样时间步k，噪声值v (k)使用以下公式更新，在哪里Ts是代理采样时间，而初始值v(1)是由InitialAction参数。

v(k+1) = v(k) + MeanAttractionConstant。*(均值- v(k))。*Ts +标准差(k).*randn(size(Mean)).*平方根(Ts)

在每个采样时间步骤中，标准差衰减如下代码所示。

decayedStandardDeviation =标准差(k)。*(1 - StandardDeviationDecayRate);标准差(k+1) = max(衰减标准差，标准差min);

你可以用这个简单的公式计算出需要多少样本才能使标准差减半。

半衰期= log(0.5)/log(1-StandardDeviationDecayRate);

对于连续的动作信号，适当地设置噪声标准差以鼓励探索是很重要的。这是常见的设置StandardDeviation * sqrt (Ts)到行动范围的1%到10%之间的值。

如果你的代理收敛到局部最优值太快，可以通过增加噪声量来促进代理探索;也就是说，通过增加标准差。此外，为了增加探索，您可以减少StandardDeviationDecayRate．

参考文献

[1]萨顿，理查德S和安德鲁g巴托。强化学习:简介．第二版。自适应计算与机器学习。马萨诸塞州剑桥:麻省理工学院出版社，2018年。

版本历史

在R2019a中引入

全部展开

R2021a:中定义噪声概率分布的属性名称`OrnsteinUhlenbeckActionNoise`对象已经改变

定义Ornstein-Uhlenbeck (OU)噪声模型概率分布的属性已被重命名。DDPG代理使用OU噪声进行勘探。

的方差属性已重命名StandardDeviation．
的VarianceDecayRate属性已重命名StandardDeviationDecayRate．
的VarianceMin属性已重命名StandardDeviationMin．

这些属性的默认值保持不变。当一个OrnsteinUhlenbeckActionNoise从以前的MATLAB版本中保存的噪声对象被加载，其值为方差，VarianceDecayRate,VarianceMin复制到StandardDeviation，StandardDeviationDecayRate,StandardDeviationMin,分别。

的方差，VarianceDecayRate,VarianceMin属性仍然有效，但不推荐使用。要定义OU噪声模型的概率分布，请使用新的属性名称。

更新代码

此表显示如何更新代码以使用新的属性名rlDDPGAgentOptions对象ddpgopt．

不推荐	推荐
`ddpgopt.NoiseOptions.Variance = 0.5;`	`ddpgopt. noiseoptions .标准差= 0.5;`
`ddpgopt.NoiseOptions.VarianceDecayRate = 0.1;`	`ddpgopt.NoiseOptions.StandardDeviationDecayRate = 0.1;`
`ddpgopt.NoiseOptions.VarianceMin = 0;`	`ddpgopt.NoiseOptions.StandardDeviationMin = 0;`

R2020a:DDPG代理的目标更新方法设置已更改

DDPG代理的目标更新方法设置已更改。以下更改需要更新您的代码:

的TargetUpdateMethod选项已被删除。现在，DDPG代理基于TargetUpdateFrequency而且TargetSmoothFactor选项值。
的默认值TargetUpdateFrequency已经从4来1．

要使用下列目标更新方法之一，请设置TargetUpdateFrequency而且TargetSmoothFactor属性如所示。

更新方法	`TargetUpdateFrequency`	`TargetSmoothFactor`
平滑	`1`	不到`1`
周期	大于`1`	`1`
周期平滑(R2020a中的新方法)	大于`1`	不到`1`

的默认目标更新配置，这是一个平滑更新TargetSmoothFactor的价值0.001，保持不变。

更新代码

的一些典型用法rlDDPGAgentOptions以及如何更新代码以使用新的选项配置。

不推荐	推荐
`opt = rlDDPGAgentOptions('TargetUpdateMethod'，"平滑");`	`opt = rlDDPGAgentOptions;`
`opt = rlDDPGAgentOptions('TargetUpdateMethod'，"periodic");`	`opt = rlDDPGAgentOptions;opt. targetupdatfrequency = 4;opt.TargetSmoothFactor = 1;`
`opt = rlDDPGAgentOptions;opt.TargetUpdateMethod = "periodic";opt. targetupdatfrequency = 5;`	`opt = rlDDPGAgentOptions;opt. targetupdatfrequency = 5;opt.TargetSmoothFactor = 1;`

另请参阅

主题

深度确定性策略梯度(DDPG)代理

rlDDPGAgentOptions

描述

创建

语法

描述

属性

NoiseOptions- - - - - -噪声模型选项OrnsteinUhlenbeckActionNoise对象

ActorOptimizerOptions- - - - - -角色优化器选项rlOptimizerOptions对象

CriticOptimizerOptions- - - - - -评论家优化选项rlOptimizerOptions对象

TargetSmoothFactor- - - - - -平滑因子的目标演员和评论家更新1 e - 3(默认)|小于等于1的正标量

TargetUpdateFrequency- - - - - -目标参与者和评论家更新之间的步数1(默认)|正整数

ResetExperienceBufferBeforeTraining- - - - - -清除经验缓冲区的选项真正的(默认)|假

SequenceLength- - - - - -使用RNN时的最大批量训练轨迹长度1(默认)|正整数

MiniBatchSize- - - - - -随机经验小批量的大小64(默认)|正整数

NumStepsToLookAhead- - - - - -用于评估保单价值的未来奖励数目1(默认)|正整数

ExperienceBufferLength- - - - - -经验缓冲大小10000(默认)|正整数

SampleTime- - - - - -药剂取样时间1(默认)|积极的标量|－1

DiscountFactor- - - - - -折现系数0.99(默认)|小于等于1的正标量

对象的功能

例子

创建DDPG代理选项对象

算法

噪声模型

参考文献

版本历史

R2021a:中定义噪声概率分布的属性名称OrnsteinUhlenbeckActionNoise对象已经改变

R2020a:DDPG代理的目标更新方法设置已更改

另请参阅

主题

`NoiseOptions`- - - - - -噪声模型选项
`OrnsteinUhlenbeckActionNoise`对象

`ActorOptimizerOptions`- - - - - -角色优化器选项
`rlOptimizerOptions`对象

`CriticOptimizerOptions`- - - - - -评论家优化选项
`rlOptimizerOptions`对象

`TargetSmoothFactor`- - - - - -平滑因子的目标演员和评论家更新
`1 e - 3`(默认)|小于等于1的正标量

`TargetUpdateFrequency`- - - - - -目标参与者和评论家更新之间的步数
`1`(默认)|正整数

`ResetExperienceBufferBeforeTraining`- - - - - -清除经验缓冲区的选项
`真正的`(默认)|`假`

`SequenceLength`- - - - - -使用RNN时的最大批量训练轨迹长度
`1`(默认)|正整数

`MiniBatchSize`- - - - - -随机经验小批量的大小
`64`(默认)|正整数

`NumStepsToLookAhead`- - - - - -用于评估保单价值的未来奖励数目
`1`(默认)|正整数

`ExperienceBufferLength`- - - - - -经验缓冲大小
`10000`(默认)|正整数

`SampleTime`- - - - - -药剂取样时间
`1`(默认)|积极的标量|`－1`

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|小于等于1的正标量

R2021a:中定义噪声概率分布的属性名称`OrnsteinUhlenbeckActionNoise`对象已经改变