负载预定义控制系统环境- MATLAB & Simulink - MathWorks意大利金宝app - 金宝app,下载188bet金宝搏,金宝搏官方网站

加载预定义的控制系统环境

强化学习工具箱™软件提供了几个预定义的控制系统环境，其中的动作、观察、奖励和动态已经定义。你可以使用这些环境:

学习强化学习概念。
熟悉强化学习工具箱软件功能。
测试您自己的强化学习代理。

您可以加载以下预定义的MATLAB^®控制系统环境使用rlPredefinedEnv函数。

环境	代理任务
Cart-pole	利用离散或连续的动作空间对移动的手推车施加力，使一根柱子保持平衡。
双积分器	利用离散或连续的动作空间控制二阶动态系统。
图像观测单摆	用离散或连续的动作空间向上摆动并平衡一个简单的钟摆。

您还可以加载预定义的MATLAB网格世界环境。有关详细信息，请参阅加载预定义的网格世界环境．

Cart-Pole环境

在预定义的车杆环境中，代理的目标是通过对车施加水平力来平衡移动中的车杆。当满足以下两个条件时，认为极点平衡成功:

极角保持在垂直位置的给定阈值内，其中垂直位置为零弧度。
小车位置的大小仍然低于给定的阈值。

有两种车杆环境变体，它们因代理操作空间的不同而不同。

离散Agent可以施加任意一种力F_马克斯或-F_马克斯到马车那儿去F_马克斯是MaxForce环境的性质。
连续-剂可以施加范围内的任何力[-F_马克斯，F_马克斯]．

要创造一个车杆的环境，使用rlPredefinedEnv函数。

离散行动空间

env = rlPredefinedEnv (“CartPole-Discrete”)；

持续的行动空间

env = rlPredefinedEnv (“CartPole-Continuous”)；

您可以可视化的车杆环境使用情节函数。该情节将购物车显示为蓝色方形，杆显示为红色矩形。

地块（环境）

要想在训练过程中看到环境，打电话情节训练前，保持可视化图形打开。

有关如何在电线杆环境中培训代理的示例，请参见以下示例:

环境属性

财产	描述	默认的
`重力`	重力加速度，单位是米每秒的平方	`9.8`
`MassCart`	推车的质量，以公斤为单位	`1`
`MassPole`	磁极的质量，单位是千克	`0.1`
`长度`	杆子长度的一半，单位是米	`0.5`
`MaxForce`	最大水平力大小（单位：牛顿）	`10`
`Ts`	采样时间（秒）	`０．０２`
`ThetaThresholdRadians`	极角阈值，以弧度表示	`0.2094`
`XThreshold`	小车位置阈值（米）	`2．4`
`RewardForNotFalling`	每一步杆子都是平衡的奖励	`1`
`堕落的惩罚`	不能平衡柱子的奖励惩罚	离散的-`-5` 连续的,`-50年`
`状态`	环境状态，指定为带有以下状态变量的列向量: 车的位置车位导数极角极角导数	`[0 0 0]'`

行动

在车杆环境中，代理使用单个动作信号与环境交互，即作用于车的水平力。环境包含此动作信号的规范对象。对于环境有一个:

离散的行动空间，是一种规范rlFiniteSetSpec对象
连续的动作空间，是一种规范rlNumericSpec对象

有关从环境获取操作规范的更多信息，请参见getActionInfo．

观察

在车杆系统中，agent可以观察到系统中所有的环境状态变量env。状态．对于每个状态变量，环境包含一个rlNumericSpec观察规范。所有状态都是连续的和无界的。

有关从环境获取观察规范的更多信息，请参见获取观测信息．

奖励

这种环境的奖励信号由两部分组成。

在杆平衡的每一个时间步骤中都有积极的奖励，也就是说，车和杆都保持在指定的阈值范围内。这种奖励会在整个训练过程中累积。为了控制奖励的大小，使用RewardForNotFalling环境的性质。
如果杆或车移动到其阈值范围之外，则一次性负惩罚。此时，训练停止。为了控制这个惩罚的大小，使用堕落的惩罚环境的性质。

双积分器的环境

在预先设定的双积分器环境中，智能体的目标是通过施加一个力输入来控制二阶系统中质量的位置。具体地说，二阶系统是一个具有增益的双积分器。

当发生以下任一事件时，这些环境的培训课程结束：

质量从原点移动超过给定阈值。
状态向量的范数小于给定的阈值。

有两种双集成商环境变体，它们根据代理的作用空间而不同。

离散Agent可以施加任意一种力F_马克斯或-F_马克斯到马车那儿去F_马克斯是MaxForce环境的性质。
连续-剂可以施加范围内的任何力[-F_马克斯，F_马克斯]．

要创建双积分器环境，请使用rlPredefinedEnv函数。

离散行动空间

env = rlPredefinedEnv (“DoubleIntegrator-Discrete”)；

持续的行动空间

env = rlPredefinedEnv (“DoubleIntegrator-Continuous”)；

可以使用情节作用绘图将质量显示为红色矩形。

地块（环境）

要想在训练过程中看到环境，打电话情节训练前，保持可视化图形打开。

有关如何在双集成商环境中培训代理的示例，请参见下面的示例:

环境属性

财产	描述	默认的
`获得`	双积分器的增益	`1`
`Ts`	采样时间（秒）	`0.1`
`MaxDistance`	距离震级阈值，单位为米	`5`
`GoalThreshold`	国家标准阈值	`０．０１`
`问`	奖励信号的观察分量的权重矩阵	`[10 0;0 1]`
`R`	奖励信号的动作分量的权重矩阵	`０．０１`
`MaxForce`	最大输入力（牛顿）	离散:`2` 连续:`Inf`
`状态`	环境状态，指定为带有以下状态变量的列向量: 质量的位置质量位置导数	`[0 0]'`

行动

在双积分器环境中，智能体与环境交互使用一个单一的动作信号，即作用于质量的力。环境包含此动作信号的规范对象。对于环境有一个:

离散的行动空间，是一种规范rlFiniteSetSpec对象
连续的动作空间，是一种规范rlNumericSpec对象

有关从环境获取操作规范的更多信息，请参见getActionInfo．

观察

在双积分器系统中，智能体可以同时观察系统中的环境状态变量env。状态．对于每个状态变量，环境包含一个rlNumericSpec观测规范。这两种状态都是连续的和无界的。

有关从环境获取观察规范的更多信息，请参见获取观测信息．

奖励

这个环境的奖励信号是连续时间奖励的离散等价，类似于LQR控制器的代价函数。

$r e w 一个 r d ＝ - \int （ x ＇问 x + u ＇ R u ） d t$

在这里:

问和R环境属性。
x为环境状态向量。
u为输入力。

这种奖励是情景性奖励，也就是说，在整个训练过程中累积的奖励。

具有图像观测的单摆环境

这个环境是一个简单的无摩擦摆，最初挂在一个向下的位置。训练目标是用最小的控制力使钟摆直立而不倾倒。

有两种单摆环境变量，它们因代理操作空间而异。

离散Agent可以施加扭矩为-2，-1，0，1,或2到钟摆。
连续-药剂可施加范围内的任何扭矩[-2，2]．

要创建一个简单的钟摆环境，使用rlPredefinedEnv函数。

离散行动空间

env = rlPredefinedEnv (“SimplePendulumWithImage-Discrete”)；

持续的行动空间

env = rlPredefinedEnv (“SimplePendulumWithImage-Continuous”)；

有关如何在此环境中培训代理的示例，请参见以下示例:

环境属性

财产	描述	默认的
`质量`	钟摆质量	`1`
`RodLength`	摆的长度	`1`
`RodInertia`	摆惯性矩	`0`
`重力`	重力加速度，单位是米每秒的平方	`9.81`
`DampingRatio`	摆运动阻尼	`0`
`最大扭矩`	最大输入扭矩，单位为牛顿	`2`
`Ts`	采样时间（秒）	`0．05`
`状态`	环境状态，指定为带有以下状态变量的列向量: 摆角摆角速度	`[0 0) '`
`问`	奖励信号的观察分量的权重矩阵	`(1 0; 0 0.1)`
`R`	奖励信号的动作分量的权重矩阵	`1 e - 3`