主要内容

控制系统应用程序的强化学习

强化学习政策的行为(即,政策如何观察环境并生成以最佳方式完成任务的动作)类似于控制系统中控制器的操作。强化学习可以使用以下映射转化为控制系统表示。

图显示了与环境相互作用的代理。观察信号从环境到代理,动作信号从代理到环境变为环境。奖励信号从环境转变为代理内部的增强学习算法。强化学习算法使用可用信息来更新策略。代理商使用策略将观察结果映射到动作。这类似于以下所示的控制图,其中控制器会感觉到所需的参考和植物输出之间的误差,并使用误差在植物输入上作用。

Reinforcement Learning Control Systems
政策 控制器
环境

所有不是控制器的所有内容 - 在前面的图中,环境包括工厂,参考信号和误差的计算。通常,环境还可以包括其他元素,例如:

  • 测量噪声

  • 干扰信号

  • 过滤器

  • 类似于数字和数字到数字转换器

观察

从环境可见的任何可测量值 - 在前面的图中,控制器可以从环境中看到误差信号。您还可以创建代理,例如参考信号,测量信号和测量信号变化速率。

行动 操纵变量或控制动作
Reward 函数的测量,误差信号,或者一些other performance metric — For example, you can implement reward functions that minimize the steady-state error while minimizing control effort. When control specifications such as cost and constraint functions are available, you can usegeneratewardwardfunction从MPC对象或模型验证块中生成奖励函数。然后,您可以将生成的奖励功能用作奖励设计的起点,例如,通过更改权重或惩罚功能。
学习算法 Adaptation mechanism of an adaptive controller

Many control problems encountered in areas such as robotics and automated driving require complex, nonlinear control architectures. Techniques such as gain scheduling, robust control, and nonlinear model predictive control (MPC) can be used for these problems, but often require significant domain expertise from the control engineer. For example, gains and parameters are difficult to tune. The resulting controllers can pose implementation challenges, such as the computational intensity of nonlinear MPC.

您可以使用使用加强学习训练的深度神经网络来实施此类复杂的控制器。这些系统可以是自学成才的,而无需专家控制工程师的干预。另外,一旦训练了系统,您就可以以计算有效的方式部署强化学习政策。

您还可以使用强化学习来创建直接从原始数据(例如图像)生成操作的端到端控制器。这种方法对视频密集型应用程序(例如自动驾驶)具有吸引力,因为您不必手动定义和选择图像功能。

Related Topics