rlSACAgentOptions

囊剂的选择

自从R2020b

扩展所有的页面

描述

使用一个rlSACAgentOptions对象为软actor-critic指定选项(SAC)代理。要创建一个囊剂,使用rlSACAgent。

有关更多信息,请参见软Actor-Critic (SAC)代理。

更多信息在不同类型的强化学习代理,看看强化学习代理。

创建

语法

选择= rlSACAgentOptions

选择= rlSACAgentOptions(名称、值)

描述

选择= rlSACAgentOptions时对象作为参数创建一个选项创建一个囊剂使用所有默认选项。您可以修改对象属性使用点符号。

例子

选择= rlSACAgentOptions (名称,值)设置选项属性使用名称-值对。例如,rlSACAgentOptions (DiscountFactor, 0.95)创建一个选项设定的折现系数0.95。您可以指定多个名称-值对。在报价附上每个属性的名字。

属性

全部展开

`EntropyWeightOptions`- - - - - -熵调优选项
`EntropyWeightOptions`对象

熵优化选项,指定为一个EntropyWeightOptions具有以下属性的对象。

`EntropyWeight`——初始熵组件的重量
`1`(默认)|积极的标量

最初的熵组件重量,指定为一个积极的标量。

`LearnRate`——优化学习速率
`3的军医`(默认)|负的标量

优化学习速率,指定为负的标量。如果LearnRate是零,EntropyWeight在培训和价值是固定的TargetEntropy值将被忽略。

`TargetEntropy`——目标熵值
`[]`(默认)|标量

调优目标熵值熵权,指定为一个标量。一个更高的目标熵值鼓励更多的探索。

如果你不指定TargetEntropy,代理使用一个作为目标价值,一个是操作的数量。

`算法`——熵算法来优化
`“亚当”`(默认)|`“个”`|`“rmsprop”`

算法来优化熵,指定为下列字符串之一。

“亚当”——亚当优化器使用。您可以指定的衰变速率梯度和平方梯度移动平均线使用GradientDecayFactor和SquaredGradientDecayFactor的字段OptimizerParameters选择。
“个”——使用随机梯度下降势头(个)优化器。您可以指定使用动量值动力场的OptimizerParameters选择。
“rmsprop”——RMSProp优化器使用。您可以指定的衰变率的平方梯度移动平均使用SquaredGradientDecayFactor的字段OptimizerParameters选择。

对这些优化器的更多信息,见随机梯度下降法在深入学习工具箱™。

`GradientThreshold`——对梯度阈值
`正`(默认)|积极的标量

熵梯度阈值,指定为正或积极的标量。如果梯度超过这个值,梯度是剪。

`OptimizerParameters`——适用的参数优化
`OptimizerParameters`对象

适用的优化参数,指定为一个OptimizerParameters对象使用以下参数。默认参数值适合大多数问题。

参数	描述	默认的
`动力`	上一步的贡献,从0到1指定为一个标量。值0表示没有从前面步骤的贡献。值为1时表示最大的贡献。这个参数只适用于当`优化器`是`“个”`。	`0.9`
`ε`	分母抵消,指定为一个积极的标量。优化器添加这个抵消分母在网络参数更新以避免除零。这个参数只适用于当`优化器`是`“亚当”`或`“rmsprop”`。	`1 e-8`
`GradientDecayFactor`	衰变的速度梯度移动平均,指定为一个积极的标量从0到1。这个参数只适用于当`优化器`是`“亚当”`。	`0.9`
`SquaredGradientDecayFactor`	衰变率的平方梯度移动平均,指定为一个积极的标量从0到1。这个参数只适用于当`优化器`是`“亚当”`或`“rmsprop”`。	`0.999`

当一个特定的属性OptimizerParameters不适用于优化器中指定的类型算法选项,属性设置为“不适用”。

改变默认值,访问的属性OptimizerParameters使用点符号。

选择= rlSACAgentOptions;opt.EntropyWeightOptions.OptimizerParameters。GradientDecayFactor = 0.95;

`UseCriticTargetEntropy`- - - - - -选择使用熵的批评的目标
`真正的`(默认)|`假`

选择使用熵的评论家目标,指定为一个真正的(默认情况下,使用熵)或假(不使用熵)。注意,这个选项不影响熵使用的演员。

例子:UseCriticTargetEntropy = false

`PolicyUpdateFrequency`- - - - - -演员之间的步骤数量政策更新
`1`(默认)|正整数

演员之间的步骤数量政策更新,指定为一个正整数。有关更多信息,请参见训练算法。

`CriticUpdateFrequency`- - - - - -批评家之间的步骤数量更新
`1`(默认)|正整数

批评家之间的步骤数量更新,指定为一个正整数。有关更多信息,请参见训练算法。

`NumWarmStartSteps`- - - - - -行动之前更新的演员和评论家
正整数

行动之前更新的演员和批评,指定为一个正整数。默认情况下,NumWarmStartSteps值等于MiniBatchSize价值。

`NumGradientStepsPerUpdate`- - - - - -梯度的步骤当更新演员和批评
`1`(默认)|正整数

数量的梯度步骤时要进行更新的演员和批评,指定为一个正整数。

`ActorOptimizerOptions`- - - - - -演员优化器选择
`rlOptimizerOptions`对象

演员优化选项,指定为一个rlOptimizerOptions对象。它允许您指定学习速率等演员的训练参数的估计值,梯度阈值,以及优化算法及其参数。有关更多信息,请参见rlOptimizerOptions和rlOptimizer。

`CriticOptimizerOptions`- - - - - -评论家优化器选择
`rlOptimizerOptions`对象

评论家优化选项,指定为一个rlOptimizerOptions对象。它允许您指定训练参数的评论家接近者,如学习速率梯度阈值,以及优化算法及其参数。有关更多信息,请参见rlOptimizerOptions和rlOptimizer。

`BatchDataRegularizerOptions`- - - - - -批量数据调整选项
`[]`(默认)|`rlConservativeQLearningOptions`对象|`rlBehaviorCloningRegularizerOptions`对象

批处理数据调整选项,指定为一个rlConservativeQLearningOptions或作为一个rlBehaviorCloningRegularizerOptions对象。这些选项通常用于代理离线训练,从现有的数据。如果你离开这个选项空,使用不规范。

有关更多信息,请参见rlConservativeQLearningOptions和rlBehaviorCloningRegularizerOptions。

例子:opt.BatchDataRegularizerOptions = rlConservativeQLearningOptions (NumSampledActions = 20)

`TargetSmoothFactor`- - - - - -平滑系数为目标评论家更新
`1 e - 3`(默认)|积极的标量小于或等于1

平滑系数为目标评论家更新,指定为一个积极的标量小于或等于1。有关更多信息,请参见目标更新方法。

`TargetUpdateFrequency`- - - - - -目标之间的步骤数目评论家更新
`1`(默认)|正整数

目标的批评家之间的步骤数量更新,指定为一个正整数。有关更多信息,请参见目标更新方法。

`ResetExperienceBufferBeforeTraining`- - - - - -选择清除缓冲区的经验
`假`(默认)|`真正的`

选择清除缓冲区之前培训经验,指定为一个逻辑值。

`SequenceLength`- - - - - -使用RNN时最大batch-training轨迹长度
`1`(默认)|正整数

最大batch-training轨迹长度使用递归神经网络时,指定为一个正整数。这个值必须大于1当使用递归神经网络1否则。

`MiniBatchSize`- - - - - -大小的随机mini-batch经验
`64年`(默认)|正整数

大小的随机mini-batch经验,指定为一个正整数。在每次训练集,代理经验的随机样本经验缓冲区时计算梯度更新演员和批评。大型mini-batches减少方差计算梯度但增加计算工作量。

`NumStepsToLookAhead`- - - - - -使用未来的奖励数量估计价值的政策
`1`(默认)|正整数

使用未来的奖励数量估计的值政策,指定为一个正整数。有关更多信息,请参见[1],第7章。

`ExperienceBufferLength`- - - - - -经验的缓冲区大小
`10000年`(默认)|正整数

体验缓冲区大小,指定为一个正整数。在培训期间,代理计算更新使用mini-batch经历随机取样的缓冲区。

`SampleTime`- - - - - -样本的代理
`1`(默认)|积极的标量|`1`

样本代理的时候,作为一个积极的标量或指定1。设置这个参数1支持基于事件的模拟。

在一个模型金宝app^®环境中,RL代理块中执行每一个指定的代理SampleTime秒的仿真时间。如果SampleTime是1块继承了样本时间从母公司子系统。

在MATLAB^®环境中,代理执行每一次进步的环境。在这种情况下,SampleTime之间的时间间隔连续元素返回的输出的经验吗sim卡或火车。如果SampleTime是1之间的时间间隔连续元素返回的输出经验反映了事件触发代理执行的时机。

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|积极的标量小于或等于1

折现系数应用于未来的回报在训练,指定为一个积极的标量小于或等于1。

对象的功能

rlSACAgent 软actor-critic (SAC)强化学习代理

例子

全部折叠

创建囊剂的选择对象

打开生活的脚本

创建一个囊剂的选择对象,指定折扣因素。

选择= rlSACAgentOptions (DiscountFactor = 0.95)

选择= rlSACAgentOptions属性:EntropyWeightOptions: [1 x1 rl.option。EntropyWeightOptions] UseCriticTargetEntropy: 1 PolicyUpdateFrequency: 1 CriticUpdateFrequency: 1 NumWarmStartSteps: 64 NumGradientStepsPerUpdate: 1 ActorOptimizerOptions: [1x1 rl.option.rlOptimizerOptions] CriticOptimizerOptions: [1x2 rl.option.rlOptimizerOptions] BatchDataRegularizerOptions: [] TargetSmoothFactor: 1.0000e-03 TargetUpdateFrequency: 1 ResetExperienceBufferBeforeTraining: 0 SequenceLength: 1 MiniBatchSize: 64 NumStepsToLookAhead: 1 ExperienceBufferLength: 10000 SampleTime: 1 DiscountFactor: 0.9500 InfoToSave: [1x1 struct]

您可以修改选项使用点符号。例如,设置代理样品时间0.5。

opt.SampleTime = 0.5;

囊代理、配置熵权优化器使用的选项EntropyWeightOptions。例如,设置目标熵值5。

opt.EntropyWeightOptions。TargetEntropy = 5;

引用

[1]萨顿,理查德·S。,安德鲁·g·Barto。强化学习:介绍。第二版。自适应计算和机器学习。剑桥:麻省理工学院出版社,2018年。

版本历史

介绍了R2020b

全部展开

R2022a:仿真和部署:`UseDeterministicExploitation`将被删除

房地产UseDeterministicExploitation的rlSACAgentOptions对象将被删除在将来的版本中。使用UseExplorationPolicy的属性rlSACAgent代替。

以前,你UseDeterministicExploitation如下。

力代理总是选择最大似然的行动,从而使用贪婪的确定性的政策模拟和部署。
```
agent.AgentOptions。UseDeterministicExploitation = true;
```
允许代理选择其行动抽样概率分布仿真和政策部署,从而使用随机策略,探讨了观测空间。
```
agent.AgentOptions。UseDeterministicExploitation = false;
```

从R2022a开始,集UseExplorationPolicy如下。

力代理总是选择最大似然的行动,从而使用贪婪的确定性的政策模拟和部署。
```
代理。UseExplorationPolicy = false;
```
允许代理选择其行动抽样概率分布仿真和政策部署,从而使用随机策略,探讨了观测空间。
```
代理。UseExplorationPolicy = true;
```

类似于UseDeterministicExploitation,UseExplorationPolicy只会影响仿真和部署;它不影响训练。

R2022a:默认值的`ResetExperienceBufferBeforeTraining`属性改变了

默认值的ResetExperienceBufferBeforeTraining已经从真正的来假。

当创建一个新的囊代理,如果你想清除缓冲区之前培训经验,您必须指定ResetExperienceBufferBeforeTraining作为真正的。例如,在训练之前,设置属性使用点符号。

agent.AgentOptions。ResetExperienceBufferBeforeTraining = true;

此外,您可以设置的属性真正的在一个rlSACAgentOptions对象,并使用这个对象创建囊剂。

另请参阅

对象

rlSACAgent|rlAgentInitializationOptions|rlConservativeQLearningOptions|rlBehaviorCloningRegularizerOptions

rlSACAgentOptions

描述

创建

语法

描述

属性

EntropyWeightOptions- - - - - -熵调优选项EntropyWeightOptions对象

EntropyWeight——初始熵组件的重量1(默认)|积极的标量

LearnRate——优化学习速率3的军医(默认)|负的标量

TargetEntropy——目标熵值[](默认)|标量

算法——熵算法来优化“亚当”(默认)|“个”|“rmsprop”

GradientThreshold——对梯度阈值正(默认)|积极的标量

OptimizerParameters——适用的参数优化OptimizerParameters对象

UseCriticTargetEntropy- - - - - -选择使用熵的批评的目标真正的(默认)|假

PolicyUpdateFrequency- - - - - -演员之间的步骤数量政策更新1(默认)|正整数

CriticUpdateFrequency- - - - - -批评家之间的步骤数量更新1(默认)|正整数

NumWarmStartSteps- - - - - -行动之前更新的演员和评论家正整数

NumGradientStepsPerUpdate- - - - - -梯度的步骤当更新演员和批评1(默认)|正整数

ActorOptimizerOptions- - - - - -演员优化器选择rlOptimizerOptions对象

CriticOptimizerOptions- - - - - -评论家优化器选择rlOptimizerOptions对象

BatchDataRegularizerOptions- - - - - -批量数据调整选项[](默认)|rlConservativeQLearningOptions对象|rlBehaviorCloningRegularizerOptions对象

TargetSmoothFactor- - - - - -平滑系数为目标评论家更新1 e - 3(默认)|积极的标量小于或等于1

TargetUpdateFrequency- - - - - -目标之间的步骤数目评论家更新1(默认)|正整数

ResetExperienceBufferBeforeTraining- - - - - -选择清除缓冲区的经验假(默认)|真正的

SequenceLength- - - - - -使用RNN时最大batch-training轨迹长度1(默认)|正整数

MiniBatchSize- - - - - -大小的随机mini-batch经验64年(默认)|正整数

NumStepsToLookAhead- - - - - -使用未来的奖励数量估计价值的政策1(默认)|正整数

ExperienceBufferLength- - - - - -经验的缓冲区大小10000年(默认)|正整数

SampleTime- - - - - -样本的代理1(默认)|积极的标量|1

DiscountFactor- - - - - -折现系数0.99(默认)|积极的标量小于或等于1