加载预定义的Simulink环境金宝app- MATLAB & Simulink - MathWorks英国 - 金宝app,下载188bet金宝搏,金宝搏官方网站

负载预定义的金宝app环境

Reinforcement Learning Toolbox™软件提供了预定义的Simulink金宝app^®已经定义了行动、观察、奖励和动态的环境。你可以使用这些环境:

学习强化学习概念。
熟悉强化学习工具箱软件功能。
测试您自己的强化学习代理。

控件可以加载以下预定义的Simulink环境金宝apprlPredefinedEnv函数。

环境	代理任务
单摆Simulink模型金宝app	用离散或连续的动作空间向上摆动并平衡一个简单的钟摆。
Cart-pole Simscape™模型	利用离散或连续的动作空间对移动的手推车施加力，使一根柱子保持平衡。

对于预定义的Simulink环金宝app境，环境动力学、观察和奖励信号在相应的Simulink模型中定义。的rlPredefinedEnv函数创建一个金宝appSimulinkEnvWithAgent对象,火车函数用于与Simulink模型交互。金宝app

单摆金宝app模型

这个环境是一个简单的无摩擦摆，最初挂在一个向下的位置。训练目标是用最小的控制力使钟摆直立而不倾倒。中定义了此环境的模型rlSimplePendulumModel金宝app仿真软件模型。

open_system (“rlSimplePendulumModel”）

有两种简单的摆环境变体，它们根据agent的行动空间而不同。

离散Agent可以施加任意一种扭矩T_马克斯，0,或者,T_马克斯到钟摆，在那里T_马克斯是max_tau变量。
连续型-代理商可以施加范围内的任何扭矩[-T_马克斯，T_马克斯]。

要创建一个简单的钟摆环境，使用rlPredefinedEnv函数。

离散行动空间

env = rlPredefinedEnv (“SimplePendulumModel-Discrete”)；

持续的行动空间

env = rlPredefinedEnv (“SimplePendulumModel-Continuous”)；

如在单摆环境下训练代理人，见:

行动

在单摆环境中，代理与环境交互使用一个单一的动作信号，即施加在摆底部的力矩。环境包含此动作信号的规范对象。对于环境有一个:

离散的行动空间，是一种规范rlFiniteSetSpec对象。
连续的动作空间，是一种规范rlNumericSpec对象。

有关从环境获取操作规范的更多信息，请参见getActionInfo．

观察

在单摆环境中，agent接收到以下三个观测信号，它们构造在创建的观察子系统。

摆角的正弦值
钟摆角的余弦
摆角的导数

对于每个观测信号，环境包含一个rlNumericSpec观测规范。所有的观测都是连续的、无界的。

有关从环境获取观察规范的更多信息，请参见getObservationInfo．

奖励

这个环境的奖励信号，是在计算奖励子系统,是

$r_{t} ＝ - （ θ_{t}^{2} + ０.１ * {\dot{θ}}_{t}^{2} + ０．００１ * u_{t - 1}^{2} ）$

在这里:

θ_t为从垂直位置位移的摆角。
${\dot{θ}}_{t}$ 是摆角的导数。
u_{t - 1}是上一个时间步骤的控制工作。

Cart-PoleSimscape模型

在预定义的车杆环境中，代理的目标是通过对车施加水平力来平衡移动中的车杆。当满足以下两个条件时，认为极点平衡成功:

极角保持在垂直位置的给定阈值内，其中垂直位置为零弧度。
小车位置的大小仍然低于给定的阈值。

中定义了此环境的模型rlCartPoleSimscapeModel金宝app仿真软件模型。这个模型的动态是用Simscape多体™．

open_system (“rlCartPoleSimscapeModel”）

在环境利用Simscape组件定义模型动力学，利用Simulink模块构建奖励和观察。金宝app

open_system (“rlCartPoleSimscapeModel /环境”）

有两种车杆环境变体，它们因代理操作空间的不同而不同。

离散- Agent可以应用一个力15，0,或-15年购物车。
连续-药剂可施加范围内的任何力[-15年，15]。

要创造一个车杆的环境，使用rlPredefinedEnv函数。

离散行动空间

env = rlPredefinedEnv (“CartPoleSimscapeModel-Discrete”)；

持续的行动空间

env = rlPredefinedEnv (“CartPoleSimscapeModel-Continuous”)；

有关在这个电线杆环境中训练代理的示例，请参见培训DDPG代理上吊和平衡车杆系统．

行动

在车杆环境中，代理使用单个动作信号与环境交互，即作用于车的力。环境包含此动作信号的规范对象。对于环境有一个:

离散的行动空间，是一种规范rlFiniteSetSpec对象。
连续的动作空间，是一种规范rlNumericSpec对象。

有关从环境获取操作规范的更多信息，请参见getActionInfo．

观察

在车杆环境中，agent接收到以下5个观测信号。

极点角的正弦值
极点角的余弦
摆角的导数
车的位置
车位导数

对于每个观测信号，环境包含一个rlNumericSpec观测规范。所有的观测都是连续的、无界的。

有关从环境获取观察规范的更多信息，请参见getObservationInfo．

奖励

这种环境的奖励信号是两个组成部分的总和(r＝r_qr+r_n+r_p)：

一种二次调节器控制奖励，构造于环境/ qr奖励子系统。

$r_{问 r} ＝ - （０.１ * x^{2} + 0．5 * θ^{2} + ０．００５ * u_{t - 1}^{2} ）$
一车限罚，建在环境/ x限制处罚子系统。当购物车位置的大小超过给定的阈值时，这个子系统生成一个负奖励。

$r_{p} ＝ - One hundred. * （ | x | \geq 3．5 ）$