主要内容

负载预定义的金宝app环境

Reinforcement Learning Toolbox™软件提供了预定义的Simulink金宝app®已经定义了行动、观察、奖励和动态的环境。你可以使用这些环境:

  • 学习强化学习的概念。

  • 增益熟悉强化学习工具箱软件功能。

  • 测试您自己的强化学习代理。

控件可以加载以下预定义的Simulink环境金宝apprlPredefinedEnv函数。

环境 代理任务
单摆Simulink模型金宝app 向上摆动和平衡使用一个不连续的或连续的操作空间中的单摆。
车极的Simscape™模型 利用离散或连续的动作空间对移动的手推车施加力,使一根柱子保持平衡。

对于预定义的Simulink环金宝app境,环境动力学、观察和奖励信号在相应的Simulink模型中定义。的rlPredefinedEnv函数创建一个金宝appSimulinkEnvWithAgent对象,火车功能用途与Simulink模型进行交互。金宝app

单摆金宝app模型

这个环境是一个简单的无摩擦摆,最初挂在一个向下的位置。训练目标是用最小的控制力使钟摆直立而不倾倒。中定义了此环境的模型rlSimplePendulumModel金宝app仿真软件模型。

Open_System('rlSimplePendulumModel'

有两个单摆的环境变量,它通过代理操作空间不同。

  • 离散Agent可以施加任意一种扭矩T最大限度0, 或者 -T最大限度到钟摆,在那里T最大限度是个max_tau变量模型中的工作区。

  • 连续型-代理商可以施加范围内的任何扭矩[-T最大限度T最大限度]。

要创建一个简单的钟摆环境,使用rlPredefinedEnv函数。

  • 离散行动空间

    env = rlPredefinedEnv (“SimplePendulumModel-Discrete”);
  • 连续动作空间

    env = rlPredefinedEnv (“SimplePendulumModel-Continuous”);

如在单摆环境下训练代理人,见:

行动

在简单摆的环境中,使用单个动作信号环境中的试剂相互作用,所述扭矩施加在摆的碱。环境包含此动作信号的规范对象。对于环境有一个:

有关从环境获取操作规范的更多信息,请参见getActionInfo

观察

在单摆环境中,agent接收到以下三个观测信号,它们构造在创建意见子系统。

  • 摆角的正弦值

  • 钟摆角的余弦

  • 摆角的导数

对于每个观测信号,环境包含一个rlNumericSpec观测规范。所有的观测都是连续的、无界的。

有关从环境中获得观测规范的更多信息,请参阅getObservationInfo

奖励

此环境的回报信号,其在所构造的计算奖励子系统,是

r t θ. t 2 + 0.1 θ. ˙ t 2 + 0.001 u t 1 2

在这里:

  • θ.t是从直立位置位移的摆角。

  • θ. ˙ t 是摆角的导数。

  • uT-1是上一个时间步骤的控制工作。

车极点simscape.模型

在预定义的车杆环境中,代理的目标是通过对车施加水平力来平衡移动中的车杆。当满足以下两个条件时,认为极点平衡成功:

  • 极角保持在垂直位置的给定阈值内,其中垂直位置为零弧度。

  • 小车位置的大小仍然低于给定的阈值。

中定义了此环境的模型rlCartPoleSimscapeModel金宝app仿真软件模型。这个模型的动态是用多体的Simscape™

Open_System('rlCartPoleSimscapeModel'

在里面环境子系统,该模型动力学使用的Simscape组件定义和奖励和观察使用Simulink模块构成。金宝app

Open_System(“rlCartPoleSimscapeModel /环境”

有两种车杆环境变体,它们因代理操作空间的不同而不同。

  • 离散- Agent可以应用一个力150,或-15到购物车。

  • 连续 - Agent可以的范围内施加任何力[-1515]。

要创造一个车杆的环境,使用rlPredefinedEnv函数。

  • 离散行动空间

    env = rlPredefinedEnv (“CartPoleSimscapeModel离散”);
  • 连续动作空间

    env = rlPredefinedEnv ('CartPoleSimscapeModel-连续');

有关在这个电线杆环境中训练代理的示例,请参见培训DDPG代理上吊和平衡车杆系统

行动

在车杆环境中,代理使用单个动作信号与环境交互,即作用于车的力。环境包含此动作信号的规范对象。对于环境有一个:

有关从环境获取操作规范的更多信息,请参见getActionInfo

观察

购物车中的极的环境中,代理接收以下五个观测信号。

  • 极点角的正弦值

  • 极点角的余弦

  • 摆角的导数

  • 车的位置

  • 车位导数

对于每个观测信号,环境包含一个rlNumericSpec观测规范。所有的观测都是连续的、无界的。

有关从环境中获得观测规范的更多信息,请参阅getObservationInfo

奖励

此环境的回报信号是两个分量的总和(rrqr+rn+rp):

  • 一种二次调节器控制奖励,构造于环境/ QR奖励子系统。

    r r 0.1 x 2 + 0.5 θ. 2 + 0.005 u t 1 2

  • 一车限罚,建在环境/ X限处罚子系统。当车位置的大小超过给定阈值该子系统产生一负的奖励。

    r p 100. | x | 3.5

在这里:

  • x是车的位置。

  • θ.为从垂直位置位移的极角。

  • uT-1是上一个时间步骤的控制工作。

另请参阅

功能

相关话题