钢筋学习工具箱™软件提供预定义的Simulink金宝app®在已经定义了操作,观察,奖励和动态的环境。您可以使用这些环境:
学习强化学习概念。
熟悉钢筋学习工具箱软件功能。
测试自己的强化学习代理。
您可以使用以下方法加载以下预定义的Simulink环境金宝appRlpredefinedenv.
功能。
环境 | 代理任务 |
---|---|
简单的摆锤Simulink模型金宝app | 使用离散或连续的动作空间摇摆并平衡简单的钟摆。 |
Cart-Pole Simscape™模型 | 通过使用离散或连续的动作空间将力施加到购物车上的移动电车上的平衡。 |
对于预定义的Simulink环金宝app境,环境动态,观察和奖励信号在相应的Simulink模型中定义。这Rlpredefinedenv.
功能创建A.金宝appSimulinkenvwithagent.
对象火车
功能用于与Simulink模型进行交互。金宝app
该环境是一个简单的无摩擦摆,最初悬挂在向下位置。培训目标是使摆锤直立,而不会使用最小的控制工作。此环境的模型是定义的Rlsimplepentulummodel.
金宝appSimulink模型。
Open_System('rlsimplepeneylummodel')
有两个简单的摆锤环境变体,其因代理动作空间而异。
离散代理可以施加任何一个扭矩T.最大限度那0.
, 或者 -T.最大限度到摆锤,在哪里T.最大限度是个Max_tau.
模型工作区中的变量。
连续代理可以在范围内施加任何扭矩[ -T.最大限度那T.最大限度]。
要创建一个简单的摆动环境,请使用Rlpredefinedenv.
功能。
离散的动作空间
Env = Rlpredefinedenv('SimpleDepulummodel-Collete');
连续动作空间
Env = Rlpredefinedenv('SimpleDepulummodel连续');
例如,培训代理在简单的摆动环境中,请参阅:
在简单的摆动环境中,代理使用单个动作信号与环境相互作用,施加在摆在摆的底部。环境包含此动作信号的规范对象。对于环境的环境:
离散的动作空间,规范是一个rlfinitesetspec.
目的。
连续动作空间,规格是一个rlnumericspec.
目的。
有关从环境中获取动作规范的详细信息,请参阅getActionInfo.
。
在简单的摆动环境中,代理接收以下三个观察信号,该信号在其中构建创造观察子系统。
摆角的正弦角
摆锤角度的余弦
摆角的衍生物
对于每个观察信号,环境包含一个rlnumericspec.
观察规范。所有观察结果都是连续和无界的。
有关从环境中获取观察规范的更多信息,请参阅getobservationInfo.
。
这个环境的奖励信号,它是在的计算奖励子系统,是
这里:
θ.T.是从直立位置的位移的摆角。
是摆角的衍生物。
你T-1是前一步的控制力。
预定推出的推车环境中的代理的目标是通过将水平力应用于推车来平衡移动推车上的杆。如果满足以下两个条件,则杆被认为成功平衡:
极角保持在垂直位置的给定阈值内,其中垂直位置是零弧度。
推车位置的大小保持在给定阈值以下。
此环境的模型是定义的rlcartpolesimscapemodel.
金宝appSimulink模型。使用此模型的动态定义simscape multibody™。
Open_System('rlcartpolesimscapemodel')
在里面环境子系统,使用Simscape组件定义模型动态,使用Simulink块构建奖励和观察。金宝app
Open_System('rlcartpolesimscapemodel /环境')
有两个推车杆环境变体,由代理动作空间不同。
离散 - 代理可以施加力量15.
那0.
, 或者-15
到购物车。
连续代理可以在范围内施加任何力[-15
那15.
]。
要创建购物车环境,请使用Rlpredefinedenv.
功能。
离散的动作空间
Env = Rlpredefinedenv('cartpolesimscapemodel-collitete');
连续动作空间
Env = Rlpredefinedenv('cartpolesimscapemodel-continual');
有关在此卡车环境中培训代理的示例,请参阅火车DDPG代理摇摆和平衡车杆系统。
在推车杆环境中,代理使用单个动作信号与环境交互,施加到推车的力。环境包含此动作信号的规范对象。对于环境的环境:
离散的动作空间,规范是一个rlfinitesetspec.
目的。
连续动作空间,规格是一个rlnumericspec.
目的。
有关从环境中获取动作规范的详细信息,请参阅getActionInfo.
。
在推车环境中,代理接收以下五个观察信号。
杆角度的正弦
极点角度的余弦
摆角的衍生物
购物车位置
推车位置的衍生物
对于每个观察信号,环境包含一个rlnumericspec.
观察规范。所有观察结果都是连续和无界的。
有关从环境中获取观察规范的更多信息,请参阅getobservationInfo.
。
此环境的奖励信号是两个组件的总和(R.=R.QR.+R.N+R.P.):
一种二次调节器控制奖励,构建在环境/ QR奖励
子系统。
购物车限制罚款,建造在环境/ x限制罚款
子系统。当推车位置的大小超过给定阈值时,该子系统产生负奖励。
这里:
X是推车位置。
θ.是从直立位置的位移的极点角度。
你T-1是前一步的控制力。