负载预定义- MATLAB和Si金宝appmulink仿真软件环境MathWorks한국 - 金宝app,下载188bet金宝搏,金宝搏官方网站

负载预定义的金宝app环境

Reinforcement Learning Toolbox™软件提供了预定义的Simulink金宝app^®已经定义了行动、观察、奖励和动态的环境。你可以使用这些环境:

学习强化学习概念。
熟悉钢筋学习工具箱软件功能。
测试您自己的强化学习代理。

控件可以加载以下预定义的Simulink环境金宝apprlPredefinedEnv函数。

环境	代理任务
单摆Simulink模型金宝app	使用离散或连续的动作空间摇摆并平衡一个简单的摆锤。
Cart-Pole Simscape™模型	利用离散或连续的动作空间对移动的手推车施加力，使一根柱子保持平衡。

对于预定义的Simulink环金宝app境，环境动力学、观察和奖励信号在相应的Simulink模型中定义。的rlPredefinedEnv函数创建一个金宝appSimulinkEnvWithAgent对象,火车函数用于与Simulink模型进行交互。金宝app

单摆金宝app模型

这个环境是一个简单的无摩擦摆，最初挂在一个向下的位置。训练目标是用最小的控制力使钟摆直立而不倾倒。中定义了此环境的模型RlsimplepeneLummodel.金宝app仿真软件模型。

Open_System（'rlsimplepentulummodel'）

有两个简单的摆锤环境变体，因代理动作空间而异。

离散Agent可以施加任意一种扭矩T_最大限度，0，或者 -T_最大限度到钟摆，在那里T_最大限度是个max_tau模型工作区中的变量。
连续型-代理商可以施加范围内的任何扭矩[-T_最大限度，T_最大限度]。

要创建一个简单的钟摆环境，使用rlPredefinedEnv函数。

离散行动空间

env = rlPredefinedEnv (“SimplePendulumModel-Discrete”）;

连续动作空间

env = rlPredefinedEnv (“SimplePendulumModel-Continuous”）;

如在单摆环境下训练代理人，见:

行动

在简单的摆形环境中，代理使用单个动作信号与环境相互作用，施加在摆在摆动的底部。环境包含此动作信号的规范对象。对于环境有一个:

离散的行动空间，是一种规范rlFiniteSetSpec目的。
连续动作空间，规格是一个rlnumericspec.目的。

有关从环境获取操作规范的更多信息，请参见getActionInfo.．

观察

在单摆环境中，agent接收到以下三个观测信号，它们构造在创造观察子系统。

摆角的正弦值
钟摆角的余弦
摆角的导数

对于每个观测信号，环境包含一个rlnumericspec.观测规范。所有的观测都是连续的、无界的。

有关从环境中获取观察规范的更多信息，请参阅getobservationInfo.．

奖励

这种环境的奖励信号，它在该环境中构建计算奖励子系统,是

$r_{t} ＝ - （ {θ.}_{t}^{2} + 0.1 * {\dot{θ.}}_{t}^{2} + 0.001 * u_{t - 1}^{2} ）$

在这里:

θ._t是从直立位置的位移的摆角。
${\dot{θ.}}_{t}$ 是摆角的导数。
u_T-1是上一个时间步骤的控制工作。

车杆子simscape.模型

在预定义的车杆环境中，代理的目标是通过对车施加水平力来平衡移动中的车杆。当满足以下两个条件时，认为极点平衡成功:

极角保持在垂直位置的给定阈值内，其中垂直位置为零弧度。
小车位置的大小仍然低于给定的阈值。

中定义了此环境的模型rlCartPoleSimscapeModel金宝app仿真软件模型。这个模型的动态是用Simscape MultiBody™．

Open_System（'rlcartpolesimscapemodel'）

在里面环境子系统，使用Simscape组件定义模型动态，使用Simulink块构建奖励和观察。金宝app

Open_System（“rlCartPoleSimscapeModel /环境”）

有两种车杆环境变体，它们因代理操作空间的不同而不同。

离散- Agent可以应用一个力15，0,或－15到购物车。
连续代理可以在范围内施加任何力[－15，15]。

要创造一个车杆的环境，使用rlPredefinedEnv函数。

离散行动空间

env = rlPredefinedEnv ('cartpolleimscapemodel-collete'）;

连续动作空间

env = rlPredefinedEnv ('cartpolesimscapemodel-continual'）;

有关在这个电线杆环境中训练代理的示例，请参见培训DDPG代理上吊和平衡车杆系统．

行动

在车杆环境中，代理使用单个动作信号与环境交互，即作用于车的力。环境包含此动作信号的规范对象。对于环境有一个:

离散的行动空间，是一种规范rlFiniteSetSpec目的。
连续动作空间，规格是一个rlnumericspec.目的。

有关从环境获取操作规范的更多信息，请参见getActionInfo.．

观察

在推车环境中，代理接收以下五个观察信号。

极点角的正弦值
极点角的余弦
摆角的导数
车的位置
车位导数

对于每个观测信号，环境包含一个rlnumericspec.观测规范。所有的观测都是连续的、无界的。

有关从环境中获取观察规范的更多信息，请参阅getobservationInfo.．

奖励

此环境的奖励信号是两个组件的总和（r＝r_qr+r_n+r_p）：

一种二次调节器控制奖励，构造于环境/ QR奖励子系统。

$r_{问 r} ＝ - （ 0.1 * x^{2} + 0.5 * {θ.}^{2} + 0.005. * u_{t - 1}^{2} ）$
一车限罚，建在环境/ x限制罚款子系统。当推车位置的大小超过给定阈值时，该子系统产生负奖励。

$r_{p} ＝ - 100. * （ | x | \geq 3.5 ）$