钢筋学习工具箱™软件提供预定义的Simulink金宝app®在已经定义了操作,观察,奖励和动态的环境。您可以使用这些环境:
学习强化学习概念。
熟悉强化学习工具箱软件功能。
测试自己的强化学习代理。
您可以使用以下方法加载以下预定义的Simulink环境金宝appRlpredefinedenv.
功能。
环境 | 代理任务 |
---|---|
简单的摆Simulink模型金宝app | 摆动和平衡一个简单的钟摆使用离散或连续的行动空间。 |
Cart-pole Simscape™模型 | 通过使用离散或连续的动作空间将力施加到购物车上的移动电车上的平衡。 |
对于预定义的Simulink环金宝app境,环境动态,观察和奖励信号在相应的Simulink模型中定义。这Rlpredefinedenv.
功能创建A.金宝appSimulinkenvwithagent.
对象火车
函数用于与Simulink模型交互。金宝app
该环境是一个简单的无摩擦摆,最初悬挂在向下位置。培训目标是使摆锤直立,而不会使用最小的控制工作。此环境的模型是定义的rlSimplePendulumModel
金宝appSimulink模型。
open_system (“rlSimplePendulumModel”)
有两个简单的钟摆环境变体,不同的代理行动空间。
离散代理可以施加任何一个扭矩T.马克斯那0.
,或者,T.马克斯到摆锤,在哪里T.马克斯是Max_tau.
模型工作区中的变量。
连续代理可以在范围内施加任何扭矩[ -T.马克斯那T.马克斯]。
要创建一个简单的摆动环境,请使用Rlpredefinedenv.
功能。
离散的动作空间
Env = Rlpredefinedenv('SimpleDepulummodel-Collete');
持续的行动空间
Env = Rlpredefinedenv('SimpleDepulummodel连续');
例如,培训代理在简单的摆动环境中,请参阅:
在简单的摆锤环境中,代理使用一个单独的动作信号,即施加在摆锤底部的扭矩与环境相互作用。环境包含此动作信号的规范对象。对于环境的环境:
离散的动作空间,规范是一个rlfinitesetspec.
对象。
连续动作空间,规范是一种rlNumericSpec
对象。
有关从环境中获取动作规范的详细信息,请参阅getActionInfo
。
在简单的摆动环境中,代理接收以下三个观察信号,该信号在其中构建创建的观察子系统。
摆角的正弦角
摆锤角度的余弦
摆角的衍生物
对于每个观察信号,环境包含一个rlNumericSpec
观察规范。所有观察结果都是连续和无界的。
有关从环境中获取观察规范的更多信息,请参见getObservationInfo
。
这个环境的奖励信号,是在计算奖励子系统,是
这里:
θT.是摆从竖直位置的位移角。
是摆角的衍生物。
你t-1来自前一个时间步骤的控制工作。
预定推出的推车环境中的代理的目标是通过将水平力应用于推车来平衡移动推车上的杆。如果满足以下两个条件,则杆被认为成功平衡:
极角保持在垂直位置的给定阈值内,其中垂直位置是零弧度。
推车位置的大小保持在给定阈值以下。
此环境的模型是定义的rlcartpolesimscapemodel.
金宝appSimulink模型。使用此模型的动态定义Simscape多体™。
open_system (“rlCartPoleSimscapeModel”)
在环境子系统中,使用Simscape组件定义模型动力学,使用Simulink模块构建奖励和观察。金宝app
open_system ('rlcartpolesimscapemodel /环境')
有两个推车杆环境变体,由代理动作空间不同。
离散 - 代理可以施加力量15.
那0.
, 或者-15年
购物车。
连续-药剂可施加任何范围内的力[-15年
那15.
]。
要创建购物车环境,请使用Rlpredefinedenv.
功能。
离散的动作空间
Env = Rlpredefinedenv(“CartPoleSimscapeModel-Discrete”);
持续的行动空间
Env = Rlpredefinedenv(“CartPoleSimscapeModel-Continuous”);
有关在此卡车环境中培训代理的示例,请参阅火车DDPG代理摇摆和平衡车杆系统。
在推车杆环境中,代理使用单个动作信号与环境交互,施加到推车的力。环境包含此动作信号的规范对象。对于环境的环境:
离散的动作空间,规范是一个rlfinitesetspec.
对象。
连续动作空间,规范是一种rlNumericSpec
对象。
有关从环境中获取动作规范的详细信息,请参阅getActionInfo
。
在车极环境中,agent接收到以下5个观测信号。
杆角度的正弦
极点角度的余弦
摆角的衍生物
购物车位置
推车位置的衍生物
对于每个观察信号,环境包含一个rlNumericSpec
观察规范。所有观察结果都是连续和无界的。
有关从环境中获取观察规范的更多信息,请参见getObservationInfo
。
这个环境的奖励信号是三个组成部分的总和(R.=R.QR.+R.N+R.P.):
一种二次调节器控制奖励,构建在环境/ qr奖励
子系统。
当柱子接近直立位置时的额外奖励,在环境/近直立的奖励
子系统。
购物车限制罚款,建造在环境/ x限制处罚
子系统。当购物车位置的大小超过给定的阈值时,这个子系统将生成一个负奖励。
这里:
X是购物车的位置。
θ是极点从直立位置起的位移角。
你t-1来自前一个时间步骤的控制工作。