加载预定义的Simulink环境金宝app- MATLAB和Simulink - MathWorks意大利 - 金宝app,下载188bet金宝搏,金宝搏官方网站

负载预定义的金宝app环境

Reinforcement Learning Toolbox™软件提供了预定义的Simulink金宝app^®已经定义了行动、观察、奖励和动态的环境。你可以使用这些环境:

学习强化学习的概念。
增益熟悉强化学习工具箱软件功能。
测试您自己的强化学习代理。

控件可以加载以下预定义的Simulink环境金宝apprlPredefinedEnv函数。

环境	代理任务
单摆Simulink模型金宝app	向上摆动和平衡使用一个不连续的或连续的操作空间中的单摆。
车极的Simscape™模型	利用离散或连续的动作空间对移动的手推车施加力，使一根柱子保持平衡。

对于预定义的Simulink环金宝app境，环境动力学、观察和奖励信号在相应的Simulink模型中定义。的rlPredefinedEnv函数创建一个金宝appSimulinkEnvWithAgent对象,火车功能用途与Simulink模型进行交互。金宝app

单摆金宝app模型

这个环境是一个简单的无摩擦摆，最初挂在一个向下的位置。训练目标是用最小的控制力使钟摆直立而不倾倒。中定义了此环境的模型rlSimplePendulumModel金宝app仿真软件模型。

Open_System（'rlSimplePendulumModel'）

有两个单摆的环境变量，它通过代理操作空间不同。

离散Agent可以施加任意一种扭矩T_最大限度，0，或者 -T_最大限度到钟摆，在那里T_最大限度是个max_tau变量模型中的工作区。
连续型-代理商可以施加范围内的任何扭矩[-T_最大限度，T_最大限度]。

要创建一个简单的钟摆环境，使用rlPredefinedEnv函数。

离散行动空间

env = rlPredefinedEnv (“SimplePendulumModel-Discrete”）;

连续动作空间

env = rlPredefinedEnv (“SimplePendulumModel-Continuous”）;

如在单摆环境下训练代理人，见:

行动

在简单摆的环境中，使用单个动作信号环境中的试剂相互作用，所述扭矩施加在摆的碱。环境包含此动作信号的规范对象。对于环境有一个:

离散的行动空间，是一种规范rlFiniteSetSpec目的。
连续动作空间，该规范是一个rlNumericSpec目的。

有关从环境获取操作规范的更多信息，请参见getActionInfo．

观察

在单摆环境中，agent接收到以下三个观测信号，它们构造在创建意见子系统。

摆角的正弦值
钟摆角的余弦
摆角的导数

对于每个观测信号，环境包含一个rlNumericSpec观测规范。所有的观测都是连续的、无界的。

有关从环境中获得观测规范的更多信息，请参阅getObservationInfo．

奖励

此环境的回报信号，其在所构造的计算奖励子系统,是

$r_{t} ＝ - （ {θ.}_{t}^{2} + 0.1 * {\dot{θ.}}_{t}^{2} + 0.001 * u_{t - 1}^{2} ）$

在这里:

θ._t是从直立位置位移的摆角。
${\dot{θ.}}_{t}$ 是摆角的导数。
u_T-1是上一个时间步骤的控制工作。

车极点simscape.模型

在预定义的车杆环境中，代理的目标是通过对车施加水平力来平衡移动中的车杆。当满足以下两个条件时，认为极点平衡成功:

极角保持在垂直位置的给定阈值内，其中垂直位置为零弧度。
小车位置的大小仍然低于给定的阈值。

中定义了此环境的模型rlCartPoleSimscapeModel金宝app仿真软件模型。这个模型的动态是用多体的Simscape™．

Open_System（'rlCartPoleSimscapeModel'）

在里面环境子系统，该模型动力学使用的Simscape组件定义和奖励和观察使用Simulink模块构成。金宝app

Open_System（“rlCartPoleSimscapeModel /环境”）

有两种车杆环境变体，它们因代理操作空间的不同而不同。

离散- Agent可以应用一个力15，0,或-15到购物车。
连续 - Agent可以的范围内施加任何力[-15，15]。

要创造一个车杆的环境，使用rlPredefinedEnv函数。

离散行动空间

env = rlPredefinedEnv (“CartPoleSimscapeModel离散”）;

连续动作空间

env = rlPredefinedEnv ('CartPoleSimscapeModel-连续'）;

有关在这个电线杆环境中训练代理的示例，请参见培训DDPG代理上吊和平衡车杆系统．

行动

在车杆环境中，代理使用单个动作信号与环境交互，即作用于车的力。环境包含此动作信号的规范对象。对于环境有一个:

离散的行动空间，是一种规范rlFiniteSetSpec目的。
连续动作空间，该规范是一个rlNumericSpec目的。

有关从环境获取操作规范的更多信息，请参见getActionInfo．

观察

购物车中的极的环境中，代理接收以下五个观测信号。

极点角的正弦值
极点角的余弦
摆角的导数
车的位置
车位导数

对于每个观测信号，环境包含一个rlNumericSpec观测规范。所有的观测都是连续的、无界的。

有关从环境中获得观测规范的更多信息，请参阅getObservationInfo．

奖励

此环境的回报信号是两个分量的总和（r＝r_qr+r_n+r_p）：

一种二次调节器控制奖励，构造于环境/ QR奖励子系统。

$r_{问 r} ＝ - （ 0.1 * x^{2} + 0.5 * {θ.}^{2} + 0.005 * u_{t - 1}^{2} ）$
一车限罚，建在环境/ X限处罚子系统。当车位置的大小超过给定阈值该子系统产生一负的奖励。

$r_{p} ＝ - 100. * （ | x | \geq 3.5 ）$