主要内容

rlBehaviorCloningRegularizerOptions

规范培训DDPG选择对象,TD3和囊代理

自从R2023a

    描述

    使用一个rlBehaviorCloningRegularizerOptions克隆对象指定行为规范选择火车DDPG, TD3或囊剂。您可以指定唯一的选择是调整体重,这平衡演员克隆行为处罚和损失主要是有用的离线训练特工(特别是应对可能的数据集的概率分布之间的差异和产生的一个环境)。克隆使行为规范培训代理时,设置BatchDataRegularizerOptions代理选择对象的属性rlBehaviorCloningRegularizerOptions对象,你的首选调整重量。

    创建

    描述

    bcOpts= rlBehaviorCloningRegularizerOptions返回一个默认行为规范克隆选项集。

    例子

    bcOpts= rlBehaviorCloningRegularizerOptions (名称=值)创建克隆行为调整选项集bcOpts并设置其属性使用一个或多个名称参数。

    属性

    全部展开

    克隆行为调整体重,指定为一个积极的标量。这个重量控制演员损失之间的权衡和克隆行为处罚。

    具体来说,克隆行为规范k2(π(年代)- - -一个)2添加到演员损失呢l演员,在那里一个是一个行动从minibatch(哪个商店N经验),π(年代)从当前的演员是一个动作的观察年代(也来自minibatch)。演员因此更新最小化损失函数,L '演员:

    l 一个 c t o r = 1 N = 1 N ( λ l 一个 c t o r ( 年代 , π ( 年代 ) ) + k 2 ( π ( 年代 ) 一个 ) 2 )

    这里的标准化术语λ取决于行为克隆重量W公元前负责监管标准的重要性l演员因素:

    λ = W b c 1 N = 1 N | ( 年代 , 一个 ) |

    比例因子k尺度上的正则化项适当的行动范围:

    k = 2 一个 x 一个 n

    在这里一个mx一个上限和下限的行动范围。这些限制正在采取的行动规范(或否则估计如果不可用)。

    设置W公元前,赋值BehaviorCloningRegularizerWeight财产的rlBehaviorCloningRegularizerOptions对象。有关更多信息,请参见[1]。

    例子:BehaviorCloningRegularizerWeight = 5

    对象的功能

    例子

    全部折叠

    创建一个rlBehaviorCloningRegularizerOptions对象指定BehaviorCloningRegularizerWeight

    选择= rlBehaviorCloningRegularizerOptions (BehaviorCloningRegularizerWeight = 5)
    选择= rlBehaviorCloningRegularizerOptions属性:BehaviorCloningRegularizerWeight: 5

    您可以修改选项使用点符号。例如,设置BehaviorCloningRegularizerWeight3

    opt.BehaviorCloningRegularizerWeight = 3;

    指定该行为克隆选项设置一个代理,首先创建代理对象的选择。对于这个示例,创建一个默认rlTD3AgentOptionsTD3代理对象。

    agentOpts = rlTD3AgentOptions;

    然后,分配rlBehaviorCloningRegularizerOptions对象的BatchDataRegularizerOptions财产。

    agentOpts。BatchDataRegularizerOptions =选择;

    当您创建代理时,使用agentOpts作为最后一个输入参数的构造函数rlTD3Agent

    引用

    [1]藤本、斯科特和Shixiang Shane顾。“一个极简主义者离线强化学习方法。”先进的神经信息处理系统34 (2021):20132 - 20145。

    版本历史

    介绍了R2023a