Reinforcement Learning Toolbox™软件提供了预定义的Simulink金宝app®已经定义了行动、观察、奖励和动态的环境。你可以使用这些环境:
学习强化学习概念。
熟悉钢筋学习工具箱软件功能。
测试您自己的强化学习代理。
控件可以加载以下预定义的Simulink环境金宝apprlPredefinedEnv
函数。
环境 | 代理任务 |
---|---|
单摆Simulink模型金宝app | 使用离散或连续的动作空间摇摆并平衡一个简单的摆锤。 |
Cart-Pole Simscape™模型 | 利用离散或连续的动作空间对移动的手推车施加力,使一根柱子保持平衡。 |
对于预定义的Simulink环金宝app境,环境动力学、观察和奖励信号在相应的Simulink模型中定义。的rlPredefinedEnv
函数创建一个金宝appSimulinkEnvWithAgent
对象,火车
函数用于与Simulink模型进行交互。金宝app
这个环境是一个简单的无摩擦摆,最初挂在一个向下的位置。训练目标是用最小的控制力使钟摆直立而不倾倒。中定义了此环境的模型RlsimplepeneLummodel.
金宝app仿真软件模型。
Open_System('rlsimplepentulummodel')
有两个简单的摆锤环境变体,因代理动作空间而异。
离散Agent可以施加任意一种扭矩T最大限度,0
, 或者 -T最大限度到钟摆,在那里T最大限度是个max_tau
模型工作区中的变量。
连续型-代理商可以施加范围内的任何扭矩[-T最大限度,T最大限度]。
要创建一个简单的钟摆环境,使用rlPredefinedEnv
函数。
离散行动空间
env = rlPredefinedEnv (“SimplePendulumModel-Discrete”);
连续动作空间
env = rlPredefinedEnv (“SimplePendulumModel-Continuous”);
如在单摆环境下训练代理人,见:
在简单的摆形环境中,代理使用单个动作信号与环境相互作用,施加在摆在摆动的底部。环境包含此动作信号的规范对象。对于环境有一个:
离散的行动空间,是一种规范rlFiniteSetSpec
目的。
连续动作空间,规格是一个rlnumericspec.
目的。
有关从环境获取操作规范的更多信息,请参见getActionInfo.
.
在单摆环境中,agent接收到以下三个观测信号,它们构造在创造观察子系统。
摆角的正弦值
钟摆角的余弦
摆角的导数
对于每个观测信号,环境包含一个rlnumericspec.
观测规范。所有的观测都是连续的、无界的。
有关从环境中获取观察规范的更多信息,请参阅getobservationInfo.
.
这种环境的奖励信号,它在该环境中构建计算奖励子系统,是
在这里:
θ.t是从直立位置的位移的摆角。
是摆角的导数。
uT-1是上一个时间步骤的控制工作。
在预定义的车杆环境中,代理的目标是通过对车施加水平力来平衡移动中的车杆。当满足以下两个条件时,认为极点平衡成功:
极角保持在垂直位置的给定阈值内,其中垂直位置为零弧度。
小车位置的大小仍然低于给定的阈值。
中定义了此环境的模型rlCartPoleSimscapeModel
金宝app仿真软件模型。这个模型的动态是用Simscape MultiBody™.
Open_System('rlcartpolesimscapemodel')
在里面环境子系统,使用Simscape组件定义模型动态,使用Simulink块构建奖励和观察。金宝app
Open_System(“rlCartPoleSimscapeModel /环境”)
有两种车杆环境变体,它们因代理操作空间的不同而不同。
离散- Agent可以应用一个力15
,0
,或-15
到购物车。
连续代理可以在范围内施加任何力[-15
,15
]。
要创造一个车杆的环境,使用rlPredefinedEnv
函数。
离散行动空间
env = rlPredefinedEnv ('cartpolleimscapemodel-collete');
连续动作空间
env = rlPredefinedEnv ('cartpolesimscapemodel-continual');
有关在这个电线杆环境中训练代理的示例,请参见培训DDPG代理上吊和平衡车杆系统.
在车杆环境中,代理使用单个动作信号与环境交互,即作用于车的力。环境包含此动作信号的规范对象。对于环境有一个:
离散的行动空间,是一种规范rlFiniteSetSpec
目的。
连续动作空间,规格是一个rlnumericspec.
目的。
有关从环境获取操作规范的更多信息,请参见getActionInfo.
.
在推车环境中,代理接收以下五个观察信号。
极点角的正弦值
极点角的余弦
摆角的导数
车的位置
车位导数
对于每个观测信号,环境包含一个rlnumericspec.
观测规范。所有的观测都是连续的、无界的。
有关从环境中获取观察规范的更多信息,请参阅getobservationInfo.
.
此环境的奖励信号是两个组件的总和(r=rqr+rn+rp):
一种二次调节器控制奖励,构造于环境/ QR奖励
子系统。
一车限罚,建在环境/ x限制罚款
子系统。当推车位置的大小超过给定阈值时,该子系统产生负奖励。
在这里:
x是推车位置。
θ.为从垂直位置位移的极角。
uT-1是上一个时间步骤的控制工作。