rlBehaviorCloningRegularizerOptions

规范培训DDPG选择对象,TD3和囊代理

自从R2023a

描述

使用一个rlBehaviorCloningRegularizerOptions克隆对象指定行为规范选择火车DDPG, TD3或囊剂。您可以指定唯一的选择是调整体重,这平衡演员克隆行为处罚和损失主要是有用的离线训练特工(特别是应对可能的数据集的概率分布之间的差异和产生的一个环境)。克隆使行为规范培训代理时,设置BatchDataRegularizerOptions代理选择对象的属性rlBehaviorCloningRegularizerOptions对象,你的首选调整重量。

创建

语法

bcOpts = rlBehaviorCloningRegularizerOptions

bcOpts = rlBehaviorCloningRegularizerOptions (Name =值)

描述

bcOpts= rlBehaviorCloningRegularizerOptions返回一个默认行为规范克隆选项集。

例子

bcOpts= rlBehaviorCloningRegularizerOptions (名称=值)创建克隆行为调整选项集bcOpts并设置其属性使用一个或多个名称参数。

属性

全部展开

`BehaviorCloningRegularizerWeight`- - - - - -克隆行为规范重量
`2.5`(默认)|积极的标量

克隆行为调整体重,指定为一个积极的标量。这个重量控制演员损失之间的权衡和克隆行为处罚。

具体来说,克隆行为规范k²(π(年代_我)- - -一个_我)²添加到演员损失呢l_演员,在那里一个_我是一个行动从minibatch(哪个商店N经验),π(年代_我)从当前的演员是一个动作的观察年代_我(也来自minibatch)。演员因此更新最小化损失函数,L '_演员:

$l ”_{一个 c t o r} = \frac{1}{N} \sum_{我 = 1}^{N} (λ l_{一个 c t o r} ({年代}_{我}, π ({年代}_{我})) + k^{2} {(π ({年代}_{我}) - {一个}_{我})}^{2})$

这里的标准化术语λ取决于行为克隆重量W_公元前负责监管标准的重要性l_演员因素:

$λ = \frac{W_{b c}}{\frac{1}{N} \sum_{我 = 1}^{N} | 问 ({年代}_{我}, {一个}_{我}) |}$

比例因子k尺度上的正则化项适当的行动范围:

$k = \frac{2}{{一个}_{米 x} - {一个}_{米 n}}$

在这里一个_mx和一个_锰上限和下限的行动范围。这些限制正在采取的行动规范(或否则估计如果不可用)。

设置W_公元前,赋值BehaviorCloningRegularizerWeight财产的rlBehaviorCloningRegularizerOptions对象。有关更多信息,请参见[1]。

例子:BehaviorCloningRegularizerWeight = 5

对象的功能

例子

全部折叠

创建克隆行为规范的选择对象

打开生活的脚本

创建一个rlBehaviorCloningRegularizerOptions对象指定BehaviorCloningRegularizerWeight。

选择= rlBehaviorCloningRegularizerOptions (…BehaviorCloningRegularizerWeight = 5)

选择= rlBehaviorCloningRegularizerOptions属性:BehaviorCloningRegularizerWeight: 5

您可以修改选项使用点符号。例如,设置BehaviorCloningRegularizerWeight来3。

opt.BehaviorCloningRegularizerWeight = 3;

指定该行为克隆选项设置一个代理,首先创建代理对象的选择。对于这个示例,创建一个默认rlTD3AgentOptionsTD3代理对象。

agentOpts = rlTD3AgentOptions;

然后,分配rlBehaviorCloningRegularizerOptions对象的BatchDataRegularizerOptions财产。

agentOpts。BatchDataRegularizerOptions =选择;

当您创建代理时,使用agentOpts作为最后一个输入参数的构造函数rlTD3Agent。

引用

[1]藤本、斯科特和Shixiang Shane顾。“一个极简主义者离线强化学习方法。”先进的神经信息处理系统34 (2021):20132 - 20145。

版本历史

介绍了R2023a

另请参阅

对象

rlConservativeQLearningOptions|rlDDPGAgentOptions|rlTD3AgentOptions|rlSACAgentOptions