主要内容

createIntegratedEnv

创建金宝app基于参考模型的强化学习模型

描述

env= createIntegratedEnv (refModelnewModel创建一个模型金宝app®指定的名称的模型newModel并返回一个强化学习环境对象,env,用于这个模型。新型号包含一个RL代理块并使用参考模型refModel作为强化学习环境,用于训练此块指定的agent。

例子

envagentBlockobsInfoactInfo) = createIntegratedEnv (___的块路径RL代理块在新模型和观察和动作数据规范的参考模型,obsInfoactInfo,分别。

例子

___) = createIntegratedEnv (___名称,值使用使用一个或多个指定的端口、观察和操作信息创建模型和环境接口名称,值对参数。

例子

全部折叠

这个例子展示了如何使用createIntegratedEnv从实现代理的系统的Simulink模型开始创建环境对象。金宝app这样的系统通常被称为植物,开环系统,或参考系统,而包括代理在内的整个(集成)系统通常被称为闭环系统。

对于本例,使用中描述的飞行机器人模型训练DDPG Agent控制飞行机器人作为参考(开环)系统。

打开飞行机器人模型。

open_system (“rlFlyingRobotEnv”

初始化状态变量和采样时间。

%初始模型状态变量theta0 = 0;x0 = -15;y0 = 0;%样品时间t = 0.4;

创建Simulink模金宝app型IntegratedEnv包含以闭环方式连接到智能体块的飞行机器人模型。该函数还返回强化学习环境对象env用于培训。

env = createIntegratedEnv (“rlFlyingRobotEnv”“IntegratedEnv”
env = 金宝appSimulinkEnvWithAgent with properties: Model: IntegratedEnv AgentBlock: IntegratedEnv/RL Agent ResetFcn: [] UseFastRestart: on

该函数还可以将块路径返回到新集成模型中的RL Agent块,以及参考模型的观察和操作规范。

[~, agentBlk observationInfo actionInfo] = createIntegratedEnv (“rlFlyingRobotEnv”“IntegratedEnv”
agentBlk = 'IntegratedEnv/RL Agent'
observationInfo = rlNumericSpec with properties: LowerLimit: -Inf UpperLimit: Inf Name: "observation" Description: [0x0 string] Dimension: [7 1] DataType: "double"
actionInfo = rlNumericSpec with properties: LowerLimit: -Inf UpperLimit: Inf Name: "action" Description: [0x0 string] Dimension: [2 1] DataType: "double"

在需要修改中描述、限制或名称的情况下,返回块路径和规范是有用的observationInfoactionInfo.在修改规范之后,您可以从集成模型创建一个环境IntegratedEnv使用rl金宝appSimulinkEnv函数。

这个例子展示了如何调用createIntegratedEnv使用名称-值对指定端口名称。

第一个论点createIntegratedEnv是什么名字参考金宝app包含代理必须与之交互的系统的Simulink模型。这样的系统通常被称为植物,或开环系统。在这个例子中,参考系统是一个水箱的模型。

打开开环式水箱模型。

open_system (“rlWatertankOpenloop”

设置用于生成观测的离散积分器块的采样时间,以便模拟运行。

Ts = 1;

输入端口被调用u(而不是行动),并调用第一和第三个输出端口y停止(而不是观察结束).使用名称-值对指定端口名称。

env = createIntegratedEnv (“rlWatertankOpenloop”“IntegratedWatertank”...“ActionPortName”“u”“ObservationPortName”“y”“IsDonePortName”“停止”
env = 金宝appSimulinkEnvWithAgent with properties: Model: IntegratedWatertank AgentBlock: IntegratedWatertank/RL Agent ResetFcn: [] UseFastRestart: on . env = SimulinkEnvWithAgent with properties: Model: IntegratedWatertank AgentBlock: IntegratedWatertank/RL Agent ResetFcn: [

新模型IntegratedWatertank包含与代理块在一个闭环中连接的参考模型。该函数还返回用于训练的强化学习环境对象。

输入参数

全部折叠

引用模型名,指定为字符串或字符向量。这是实现代理需要与之交互金宝app的系统的Simulink模型。这样的系统通常被称为植物开环系统或参考系统,而包括代理在内的整个(集成)系统通常被称为闭环系统。新的Simuli金宝appnk模型将此参考模型作为强化学习环境的动态模型。

新的模型名称,指定为字符串或字符向量。createIntegratedEnv使用此名称创建一个S金宝appimulink模型,但不保存该模型。

名称-值参数

指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家

例子:“IsDonePortName”、“stopSim”设置stopSim引用模型的端口作为源结束信号。

参考模型观测输出端口名,指定为逗号分隔对组成“ObservationPortName”和一个字符串或字符向量。指定ObservationPortName当参考模型的观测输出端口名称不为时“观察”

引用模型动作输入端口名,指定为逗号分隔对组成“ActionPortName”和一个字符串或字符向量。指定ActionPortName当引用模型的操作输入端口的名称不是时“行动”

参考模型奖励输出端口名,指定为逗号分隔对组成“RewardPortName”和一个字符串或字符向量。指定RewardPortName当参考模型的奖励输出端口的名称不是时“奖励”

参考模型完成标志输出端口名,指定为逗号分隔对组成“IsDonePortName”和一个字符串或字符向量。指定IsDonePortName当参考模型的done标志输出端口的名称不是时“结束”

要为其创建规范的观察总线叶元素的名称,指定为字符串数组。要为Simulink总线对象中的元素子集创建观察规范,请指定金宝appBusElementNames.如果没有指定BusElementNames,则为总线中的每个叶元素创建一个数据规范。

ObservationBusElementNames仅当观测输出端口为总线信号时适用。

例子:“ObservationBusElementNames”,(“罪”“因为”)使用名称创建观察总线元素的规范“罪”“因为”

离散观测规范元素的有限值,指定为逗号分隔对,由“ObservationDiscreteElements”以及名称-值对的单元格数组。每个名称-值对由一个元素名称和一个离散值数组组成。

若参考模型的观测输出端口为:

指定的离散值必须能够转换为指定的观测信号的数据类型。

如果您没有为观察规范元素指定离散值,则该元素是连续的。

例子:ObservationDiscretElements,{“观察”,[1 0 1]}指定带有默认端口名的非总线观测信号的离散值观察

例子:'ObservationDiscretElements',{'gear',[-1 0 1 2],'direction',[1 2 3 4]}的离散值“装备”“方向”总线动作信号的叶元素。

离散动作规范元素的有限值,指定为逗号分隔对组成“ActionDiscreteElements”以及名称-值对的单元格数组。每个名称-值对由一个元素名称和一个离散值数组组成。

如果参考模型的动作输入端口为:

  • 一个总线信号,指定总线的叶元素的名称

  • 非总线信号,指定动作端口的名称,如ActionPortName

指定的离散值必须可转换为指定动作信号的数据类型。

如果您没有为操作规范元素指定离散值,则该元素是连续的。

例子:ActionDiscretElements,{“行动”,[1 0 1]}为带有默认端口名的非总线动作信号指定离散值“行动”

例子:'ActionDiscretElements',{'force',[-10 0 10],'torque',[-5 0 5]}的离散值“力”“扭矩”总线动作信号的叶元素。

输出参数

全部折叠

强化学习环境界面,返回为一个金宝appSimulinkEnvWithAgent对象。

到新模型中的代理块的块路径,作为字符向量返回。要在新的Simulink模型中培训代理,必须创建代理并在金宝appRL代理块所示agentBlock

有关创建代理的详细信息,请参见强化学习代理

观察数据规格,返回如下:

操作数据规范,返回如下内容之一:

  • rlNumericSpec对象的一个连续操作规范

  • rlFiniteSetSpec对象的单个离散操作规范

  • 用于多个操作规范的数据规范对象数组

介绍了R2019a