rlBehaviorCloningRegularizerOptions
描述
使用一个rlBehaviorCloningRegularizerOptions
克隆对象指定行为规范选择火车DDPG, TD3或囊剂。您可以指定唯一的选择是调整体重,这平衡演员克隆行为处罚和损失主要是有用的离线训练特工(特别是应对可能的数据集的概率分布之间的差异和产生的一个环境)。克隆使行为规范培训代理时,设置BatchDataRegularizerOptions
代理选择对象的属性rlBehaviorCloningRegularizerOptions
对象,你的首选调整重量。
创建
语法
描述
返回一个默认行为规范克隆选项集。bcOpts
= rlBehaviorCloningRegularizerOptions
创建克隆行为调整选项集bcOpts
= rlBehaviorCloningRegularizerOptions (名称=值
)bcOpts
并设置其属性使用一个或多个名称参数。
属性
对象的功能
例子
引用
[1]藤本、斯科特和Shixiang Shane顾。“一个极简主义者离线强化学习方法。”先进的神经信息处理系统34 (2021):20132 - 20145。
版本历史
介绍了R2023a