加载预定义的Simulink环境金宝app-MATLAB和Simulink-MathWorks法国 - 金宝app,下载188bet金宝搏,金宝搏官方网站

负载预定义的金宝app环境

Reinforcement Learning Toolbox™软件提供了预定义的Simulink金宝app^®已经定义了行动、观察、奖励和动态的环境。你可以使用这些环境:

学习强化学习概念。
熟悉强化学习工具箱软件功能。
测试您自己的强化学习代理。

控件可以加载以下预定义的Simulink环境金宝apprlPredefinedEnv函数。

环境	代理任务
单摆Simulink模型金宝app	使用离散或连续动作空间摆动并平衡单摆。
手推车杆模拟风景™ 模型	利用离散或连续的动作空间对移动的手推车施加力，使一根柱子保持平衡。

对于预定义的Simulink环金宝app境，环境动力学、观察和奖励信号在相应的Simulink模型中定义。的rlPredefinedEnv函数创建一个金宝appSimulinkEnvWithAgent对象,火车函数用于与Simulink模型交互。金宝app

单摆金宝app模型

这个环境是一个简单的无摩擦摆，最初挂在一个向下的位置。训练目标是用最小的控制力使钟摆直立而不倾倒。中定义了此环境的模型RLSimplePendulmodel金宝app仿真软件模型。

开放式系统(“rlSimplePendulumModel”）

有两种单摆环境变量，它们因代理操作空间而异。

离散Agent可以施加任意一种扭矩T_最大值，0，或-T_最大值到钟摆，在那里T_最大值是max_tau模型工作区中的变量。
连续型-代理商可以施加范围内的任何扭矩[-T_最大值，T_最大值].

要创建一个简单的钟摆环境，使用rlPredefinedEnv函数。

离散行动空间

env = rlPredefinedEnv (“SimplePendulumModel-Discrete”);

连续动作空间

env = rlPredefinedEnv (“SimplePendulumModel-Continuous”);

如在单摆环境下训练代理人，见:

行动

在单摆环境中，代理使用单个动作信号与环境交互，该动作信号是施加在摆底部的扭矩。环境包含此动作信号的规范对象。对于具有：

离散的行动空间，是一种规范rlFiniteSetSpec对象
连续动作空间，规范是一个rlNumericSpec对象

有关从环境获取操作规范的更多信息，请参见getActionInfo．

观察

在单摆环境中，agent接收到以下三个观测信号，它们构造在创建观察结果子系统。

摆角的正弦值
钟摆角的余弦
摆角的导数

对于每个观测信号，环境包含一个rlNumericSpec观测规范。所有的观测都是连续的、无界的。

有关从环境中获取观测规范的详细信息，请参见获取观测信息．

奖励

此环境的奖励信号，在计算奖励子系统,是

$r_{t} ＝ - （ θ_{t}^{2} + 0.1 * {\dot{θ}}_{t}^{2} + 0.001 * u_{t - 1}^{2} ）$

在这里:

θ_t是摆锤相对于直立位置的位移角。
${\dot{θ}}_{t}$ 是摆角的导数。
u_t-1是上一个时间步骤的控制工作。

手推车杆模拟风景模型

在预定义的车杆环境中，代理的目标是通过对车施加水平力来平衡移动中的车杆。当满足以下两个条件时，认为极点平衡成功:

极角保持在垂直位置的给定阈值内，其中垂直位置为零弧度。
小车位置的大小仍然低于给定的阈值。

中定义了此环境的模型rlCartPoleSimscapeModel金宝app仿真软件模型。这个模型的动态是用Simscape多体™．

开放式系统(“RLCartPolesimCapeModel”）

在环境子系统中，使用Simscape组件定义模型动力学，使用Simulink块构建奖励和观察。金宝app

开放式系统(“rlCartPoleSimscapeModel /环境”）

有两种车杆环境变体，它们因代理操作空间的不同而不同。

离散- Agent可以应用一个力15，0,或-15年去购物车。
连续-代理可以在范围内施加任何力[-15年，15].

要创造一个车杆的环境，使用rlPredefinedEnv函数。

离散行动空间

env = rlPredefinedEnv (“CartpolesisCapeModel离散”);

连续动作空间

env = rlPredefinedEnv (“cartpolesiscapemodel Continuous”);

有关在这个电线杆环境中训练代理的示例，请参见培训DDPG代理上吊和平衡车杆系统．

行动

在车杆环境中，代理使用单个动作信号与环境交互，即作用于车的力。环境包含此动作信号的规范对象。对于环境有一个:

离散的行动空间，是一种规范rlFiniteSetSpec对象
连续动作空间，规范是一个rlNumericSpec对象

有关从环境获取操作规范的更多信息，请参见getActionInfo．

观察

在cart-pole环境中，代理接收以下五个观察信号。

极点角的正弦值
极点角的余弦
摆角的导数
车的位置
车位导数

对于每个观测信号，环境包含一个rlNumericSpec观测规范。所有的观测都是连续的、无界的。

有关从环境中获取观测规范的详细信息，请参见获取观测信息．

奖励

此环境的奖励信号是两个组件的总和(r＝r_qr+r_n+r_p):

一种二次调节器控制奖励，构造于环境/品质奖励子系统。

$r_{问 r} ＝ - （ 0.1 * x^{2} + 0.5 * θ^{2} + 0.005 * u_{t - 1}^{2} ）$
一车限罚，建在环境/x限制处罚子系统。当购物车位置的大小超过给定阈值时，该子系统生成负奖励。

$r_{p} ＝ - 100 * （ | x | \geq 3.5 ）$