控制系统应用程序的强化学习
强化学习政策的行为(即,政策如何观察环境并生成以最佳方式完成任务的动作)类似于控制系统中控制器的操作。强化学习可以使用以下映射转化为控制系统表示。
Reinforcement Learning | Control Systems |
---|---|
政策 | 控制器 |
环境 | 所有不是控制器的所有内容 - 在前面的图中,环境包括工厂,参考信号和误差的计算。通常,环境还可以包括其他元素,例如:
|
观察 | 从环境可见的任何可测量值 - 在前面的图中,控制器可以从环境中看到误差信号。您还可以创建代理,例如参考信号,测量信号和测量信号变化速率。 |
行动 | 操纵变量或控制动作 |
Reward | 函数的测量,误差信号,或者一些other performance metric — For example, you can implement reward functions that minimize the steady-state error while minimizing control effort. When control specifications such as cost and constraint functions are available, you can usegeneratewardwardfunction 从MPC对象或模型验证块中生成奖励函数。然后,您可以将生成的奖励功能用作奖励设计的起点,例如,通过更改权重或惩罚功能。 |
学习算法 | Adaptation mechanism of an adaptive controller |
Many control problems encountered in areas such as robotics and automated driving require complex, nonlinear control architectures. Techniques such as gain scheduling, robust control, and nonlinear model predictive control (MPC) can be used for these problems, but often require significant domain expertise from the control engineer. For example, gains and parameters are difficult to tune. The resulting controllers can pose implementation challenges, such as the computational intensity of nonlinear MPC.
您可以使用使用加强学习训练的深度神经网络来实施此类复杂的控制器。这些系统可以是自学成才的,而无需专家控制工程师的干预。另外,一旦训练了系统,您就可以以计算有效的方式部署强化学习政策。
您还可以使用强化学习来创建直接从原始数据(例如图像)生成操作的端到端控制器。这种方法对视频密集型应用程序(例如自动驾驶)具有吸引力,因为您不必手动定义和选择图像功能。