rlTD3AgentOptions

TD3代理的选项

全部展开页面

描述

使用一个rlTD3AgentOptions对象指定双延迟深度确定性策略梯度(TD3)代理的选项。要创建TD3代理，请使用rlTD3Agent

更多信息请参见双延迟深确定性政策梯度代理．

有关不同类型的强化学习代理的更多信息，请参见强化学习代理．

创建

句法

选择= rlTD3AgentOptions

选择= rlTD3AgentOptions（名称，值）

描述

选择= rlTD3AgentOptions创建创建使用所有默认选项TD3剂时的选项中使用的对象作为参数。您可以修改使用点符号对象属性。

例子

选择= rlTD3AgentOptions (名称，价值）设置选项属性使用名称-值对。例如,rlTD3AgentOptions (DiscountFactor, 0.95)创建贴现因子为的选项集0.95．可以指定多个名称-值对。将每个属性名用引号括起来。

属性

全部展开

`ExplorationModel`-勘探噪声模型选项
`GaussianActionNoise`目的(默认)|`OrnsteinUhlenbeckActionNoise`目的

噪声模型选项，指定为GaussianActionNoise对象或一个OrnsteinUhlenbeckActionNoise对象。有关噪声模型的更多信息，请参阅噪声模型．

对于具有多个动作的agent，如果动作的范围和单位不同，那么每个动作可能需要不同的噪声模型参数。如果动作有相似的范围和单位，可以将所有动作的噪声参数设置为相同的值。

例如，对于具有两个操作的代理，将每个操作的标准偏差设置为不同的值，同时对两个标准偏差使用相同的衰减率。

选择= rlTD3AgentOptions;opt.ExplorationModel.StandardDeviation = [0.1 0.2]。opt.ExplorationModel.StandardDeviationDecayRate = 1E-4;

`TargetPolicySmoothModel`-目标平滑噪声模型选项
`GaussianActionNoise`目的

目标平滑噪声模型选项，指定为GaussianActionNoise对象。这种模式有助于政策开发具有高Q值的估计动作。有关噪声模型的更多信息，请参阅噪声模型．

对于具有多个动作的agent，如果动作具有不同的范围和单元，则每个动作可能需要不同的平滑噪声模型参数。如果动作有相似的范围和单位，可以将所有动作的噪声参数设置为相同的值。

例如，对于具有两个操作的代理，将每个操作的标准偏差设置为不同的值，同时对两个标准偏差使用相同的衰减率。

选择= rlTD3AgentOptions;opt. targetpolicymoothmodel . standarddeviation = [0.1 0.2];opt.TargetPolicySmoothModel.StandardDeviationDecayRate = 1的军医;

`PolicyUpdateFrequency`-策略更新之间的步骤数
`2`(默认)|正整数

策略更新之间的步骤数，指定为正整数。

`TargetSmoothFactor`-平滑因子的目标演员和评论家更新
`０．００５`(默认)|小于等于1的正标量

平滑因子为目标的演员和评论家更新，指定为正标量小于或等于1的更多信息，请参见目标更新方法．

`TargetUpdateFrequency`-目标演员和影评人更新之间的步骤数
`2`(默认)|正整数

目标参与者和评论家更新之间的步骤数，指定为正整数。有关更多信息，请参见目标更新方法．

`ResetExperienceBufferBeforeTraining`-期权清算经验缓冲
`真正的`(默认)|`错误的`

选项清除训练前的经验缓冲，指定为逻辑值。

`SaveExperienceBufferWithAgent`-选择保存经验缓冲区
`错误的`(默认)|`真正的`

选项用于保存剂，指定为逻辑值时保存缓冲器中的数据的体验。该选项在训练中都适用保存时，候选药物和节约试剂时使用节省功能。

对于一些代理，例如那些具有较大的经验缓冲区和基于图像的观察的代理，保存它们的经验缓冲区所需的内存很大。在这种情况下，为了不保存经验缓冲区数据，设置SaveExperienceBufferWithAgent来错误的．

如果您计划进一步培训所保存的代理，可以从以前的经验缓冲区作为起点开始培训。在本例中，setSaveExperienceBufferWithAgent来真正的．

`Sequencelength.`-使用RNN时，最大批量的训练轨道长
`1`(默认)|正整数

使用递归神经网络时的最大批量训练轨迹长度，指定为正整数。该值必须大于1当使用递归神经网络和1除此以外。

`小匹匹匹匹配`-随机经验小批量的大小
`64`(默认)|正整数

随机经验小批的大小，指定为一个正整数。在每个训练集中，agent在计算梯度时从经验缓冲区中随机采样经验，以更新临界属性。大的小批量在计算梯度时减少了方差，但增加了计算工作量。

`NumStepsToLookAhead`-用于估计保单价值的未来奖励数量
`1`(默认)|正整数

用于估计策略价值的未来奖励数量，指定为正整数。请参阅[1](第7章)了解更多细节。

用于估计策略价值的未来奖励数量，指定为正整数。有关详细信息，请参见[1]的第7章。

`ExperienceBufferLength`-体验缓冲区大小
`10000`(默认)|正整数

经验缓冲区大小，指定为一个正整数。在培训过程中，代理使用小批量从缓冲随机抽样的经验计算的更新。

`采样时间`-药剂取样时间
`1`(默认)|正标量

试剂的采样时间，指定为正标量。

在一个模型金宝app^®环境，代理被执行每采样时间仿真时间秒。

在MATLAB^®环境中，每当环境进步时，代理就会被执行。然而,采样时间返回的输出经验中连续元素之间的时间间隔是多少SIM卡或火车．

`DiscountFactor`-折现系数
`0.99`(默认)|小于等于1的正标量

贴现因子应用于培训期间的未来奖励，指定为小于或等于1的正标量。

对象功能

rlTD3Agent 双延迟深度确定性策略梯度强化学习主体

例子

全部收缩

创建TD3代理选项对象

打开生活的脚本

这个例子显示了如何创建一个TD3剂的选择对象。

创建一个rlTD3AgentOptions对象，该对象指定迷你批处理大小。

选择= rlTD3AgentOptions（“MiniBatchSize”48)

[1x1 rl.option. rlTD3AgentOptions属性:TargetPolicySmoothModel: [1x1 rl.option。GaussianActionNoise] PolicyUpdateFrequency: 2 TargetSmoothFactor: 0.0050 TargetUpdateFrequency: 2 ResetExperienceBufferBeforeTraining: 1 SaveExperienceBufferWithAgent: 0 SequenceLength: 1 MiniBatchSize: 48 NumStepsToLookAhead: 1 ExperienceBufferLength: 10000 SampleTime: 1 DiscountFactor: 0.9900

您可以修改使用点符号的选项。例如，设置所述试剂的样品的时间来0．5．

opt.SampleTime = 0.5;

算法

全部展开

噪声模型

高斯噪音行动

一种GaussianActionNoise对象具有以下数值属性。

财产	描述	默认值(`ExplorationModel`）	默认值(`TargetPolicySmoothModel`）
`的意思是`	噪声模型的意思	`0.`	`0.`
`StandardDeviationDecayRate`	标准差的衰减率	`0.`	`0.`
`StandardDeviation`	噪声模型标准差	`SQRT（0.1）`	`SQRT（0.2）`
`StandardDeviationMin`	最小标准差，必须小于`StandardDeviation`	`0.01`	`0.01`
`LowerLimit`	噪声采样下限	`-Inf`	`-0.5`
`UpperLimit`	噪声样本上限	`正`	`0．5`

在每个时间步K.，高斯噪声V.抽样如下代码所示。

w = Mean + rand(ActionSize).*StandardDeviation(k);v (k + 1) =最小(最大(w, LowerLimit) UpperLimit);

初始值v(1)由InitialAction范围。在每个采样时间的步骤，因为显示在下面的代码的标准偏差衰变。

decayedStandardDeviation = StandardDeviation (k)。* (1 - StandardDeviationDecayRate);StandardDeviation (k + 1) = max (decayedStandardDeviation StandardDeviationMin);

Ornstein-Uhlenbeck行动噪音

一个OrnsteinUhlenbeckActionNoise对象具有以下数值属性。

财产	描述	默认值
`InitialAction`	对于噪声模型行动的初始值	`0.`
`的意思是`	噪声模型的意思	`0.`
`MeanAttractionConstant`	恒指定噪声模型的输出是如何迅速吸引到平均	`0.15`
`StandardDeviationDecayRate`	标准差的衰减率	`0.`
`StandardDeviation`	噪声模型标准差	`0．3`
`StandardDeviationMin`	最低标准偏差	`0.`

在每个采样时间步K.，噪声值v (k)是用下列公式更新的，在哪里Ts是agent的采样时间，初始值v(1)由InitialAction范围。

按v（k + 1）= V（k）的+ MeanAttractionConstant *。。。（平均数 - 按v（k））* TS + StandardDeviation（K）* randn（大小（平均））* SQRT（Ts）的

在每个采样时间的步骤，因为显示在下面的代码的标准偏差衰变。

decayedStandardDeviation = StandardDeviation (k)。* (1 - StandardDeviationDecayRate);StandardDeviation (k + 1) = max (decayedStandardDeviation StandardDeviationMin);

你可以计算出有多少样本将采取的标准差来使用这个简单的公式减半。

半衰期=日志(0.5)/日志(1-StandardDeviationDecayRate);

对于连续动作的信号，适当地设置噪声标准偏差，鼓励探索是非常重要的。这是常见的集StandardDeviation *的sqrt（TS）在你行动范围的1%到10%之间。

如果你的代理在局部最优上收敛得太快，通过增加噪声量来促进代理探索;也就是增加标准差。此外，为了增加探索，你可以减少StandardDeviationDecayRate．

兼容性的考虑

全部展开

属性的定义噪声概率分布`GaussianActionNoise`对象已经改变

不建议从R2021a开始

限定高斯动作噪声模型的概率分布的性质已经改变。这种噪声模型由TD3代理勘探和目标政策平滑使用。

这方差财产已被StandardDeviation财产。
这VarianceDecayRate财产已被StandardDeviationDecayRate财产。
这VarianceMin财产已被StandardDeviationMin财产。

当一个GaussianActionNoise从以前的MATLAB版本中保存的噪声对象被加载，值VarianceDecayRate复制到StandardDeviationDecayRate的值的平方根方差和VarianceMin被复制到StandardDeviation和StandardDeviationMin，分别。

这方差那VarianceDecayRate,VarianceMin属性仍然可以工作，但不推荐使用。要定义高斯动作噪声模型的概率分布，请使用新的属性名称。

更新代码

这个表显示了如何更新代码以使用新的属性名rlTD3AgentOptions目的td3opt．

不推荐

属性名称的定义噪声概率分布`OrnsteinUhlenbeckActionNoise`对象已经改变

不建议从R2021a开始

定义Ornstein-Uhlenbeck (OU)噪声模型概率分布的属性被重新命名。TD3 agent使用OU噪声进行探测。

这方差属性已更名StandardDeviation．
这VarianceDecayRate属性已更名StandardDeviationDecayRate．
这VarianceMin属性已更名StandardDeviationMin．

这些属性的默认值保持不变。当AN.OrnsteinUhlenbeckActionNoise从以前的MATLAB版本中保存的噪声对象被加载，的值方差那VarianceDecayRate,VarianceMin复制在StandardDeviation那StandardDeviationDecayRate,StandardDeviationMin，分别。

这方差那VarianceDecayRate,VarianceMin属性仍然可以工作，但不推荐使用。要定义OU噪声模型的概率分布，使用新的属性名称来代替。

更新代码

这个表显示了如何更新代码以使用新的属性名rlTD3AgentOptions目的td3opt．

不推荐	推荐
td3opt.ExplorationModel.Variance = 0.5;	td3opt.ExplorationModel。StandardDeviation= sqrt(0.5);
td3opt.ExplorationModel。VarianceDecayRate = 0.1;	td3opt.ExplorationModel.StandardDeviationDecayRate = 0.1;
td3opt.ExplorationModel.VarianceMin = 0.1;	td3opt.ExplorationModel。StandardDeviationMin= sqrt(0.1);
td3opt.TargetPolicySmoothModel.Variance = 0.5;	td3opt.TargetPolicySmoothModel.StandardDeviation = SQRT（0.5）;
td3opt.TargetPolicySmoothModel。VarianceDecayRate = 0.1;	td3opt.TargetPolicySmoothModel。StandardDeviationDecayRate= 0.1;
td3opt.TargetPolicySmoothModel.VarianceMin = 0.1;	td3opt.TargetPolicySmoothModel.StandardDeviationMin = SQRT（0.1）;

参考文献

Richard S. Sutton和Andrew G. Barto。强化学习:简介．第二版。自适应计算和机器学习。麻省理工学院出版社，2018年。

也可以看看

话题

双延迟深确定性政策梯度代理

在R2020A中介绍

rlTD3AgentOptions

描述

创建

句法

描述

属性

`ExplorationModel`-勘探噪声模型选项
`GaussianActionNoise`目的(默认)|`OrnsteinUhlenbeckActionNoise`目的

`TargetPolicySmoothModel`-目标平滑噪声模型选项
`GaussianActionNoise`目的

`PolicyUpdateFrequency`-策略更新之间的步骤数
`2`(默认)|正整数

`TargetSmoothFactor`-平滑因子的目标演员和评论家更新
`０．００５`(默认)|小于等于1的正标量

`TargetUpdateFrequency`-目标演员和影评人更新之间的步骤数
`2`(默认)|正整数

`ResetExperienceBufferBeforeTraining`-期权清算经验缓冲
`真正的`(默认)|`错误的`

`SaveExperienceBufferWithAgent`-选择保存经验缓冲区
`错误的`(默认)|`真正的`

`Sequencelength.`-使用RNN时，最大批量的训练轨道长
`1`(默认)|正整数

`小匹匹匹匹配`-随机经验小批量的大小
`64`(默认)|正整数

`NumStepsToLookAhead`-用于估计保单价值的未来奖励数量
`1`(默认)|正整数

`ExperienceBufferLength`-体验缓冲区大小
`10000`(默认)|正整数

`采样时间`-药剂取样时间
`1`(默认)|正标量

`DiscountFactor`-折现系数
`0.99`(默认)|小于等于1的正标量

对象功能

例子

创建TD3代理选项对象

算法

噪声模型

兼容性的考虑

属性的定义噪声概率分布`GaussianActionNoise`对象已经改变

属性名称的定义噪声概率分布`OrnsteinUhlenbeckActionNoise`对象已经改变

参考文献

也可以看看

话题

强化学习工具箱文档

金宝app

强化学习与MATLAB和Simulink金宝app

rlTD3AgentOptions

描述

创建

句法

描述

属性

ExplorationModel-勘探噪声模型选项GaussianActionNoise目的(默认)|OrnsteinUhlenbeckActionNoise目的

TargetPolicySmoothModel-目标平滑噪声模型选项GaussianActionNoise目的

PolicyUpdateFrequency-策略更新之间的步骤数2(默认)|正整数

TargetSmoothFactor-平滑因子的目标演员和评论家更新０．００５(默认)|小于等于1的正标量

TargetUpdateFrequency-目标演员和影评人更新之间的步骤数2(默认)|正整数

ResetExperienceBufferBeforeTraining-期权清算经验缓冲真正的(默认)|错误的

SaveExperienceBufferWithAgent-选择保存经验缓冲区错误的(默认)|真正的

Sequencelength.-使用RNN时，最大批量的训练轨道长1(默认)|正整数

小匹匹匹匹配-随机经验小批量的大小64(默认)|正整数

NumStepsToLookAhead-用于估计保单价值的未来奖励数量1(默认)|正整数

ExperienceBufferLength-体验缓冲区大小10000(默认)|正整数

采样时间-药剂取样时间1(默认)|正标量

DiscountFactor-折现系数0.99(默认)|小于等于1的正标量

对象功能

例子

创建TD3代理选项对象

算法

噪声模型

兼容性的考虑

属性的定义噪声概率分布GaussianActionNoise对象已经改变

属性名称的定义噪声概率分布OrnsteinUhlenbeckActionNoise对象已经改变

参考文献

也可以看看

话题

强化学习工具箱文档

金宝app

强化学习与MATLAB和Simulink金宝app

`ExplorationModel`-勘探噪声模型选项
`GaussianActionNoise`目的(默认)|`OrnsteinUhlenbeckActionNoise`目的

`TargetPolicySmoothModel`-目标平滑噪声模型选项
`GaussianActionNoise`目的

`PolicyUpdateFrequency`-策略更新之间的步骤数
`2`(默认)|正整数

`TargetSmoothFactor`-平滑因子的目标演员和评论家更新
`０．００５`(默认)|小于等于1的正标量

`TargetUpdateFrequency`-目标演员和影评人更新之间的步骤数
`2`(默认)|正整数

`ResetExperienceBufferBeforeTraining`-期权清算经验缓冲
`真正的`(默认)|`错误的`

`SaveExperienceBufferWithAgent`-选择保存经验缓冲区
`错误的`(默认)|`真正的`

`Sequencelength.`-使用RNN时，最大批量的训练轨道长
`1`(默认)|正整数

`小匹匹匹匹配`-随机经验小批量的大小
`64`(默认)|正整数

`NumStepsToLookAhead`-用于估计保单价值的未来奖励数量
`1`(默认)|正整数

`ExperienceBufferLength`-体验缓冲区大小
`10000`(默认)|正整数

`采样时间`-药剂取样时间
`1`(默认)|正标量

`DiscountFactor`-折现系数
`0.99`(默认)|小于等于1的正标量

属性的定义噪声概率分布`GaussianActionNoise`对象已经改变

属性名称的定义噪声概率分布`OrnsteinUhlenbeckActionNoise`对象已经改变