主要内容

控制系统应用程序的强化学习

强化学习的行为的伏笔,政策观察环境并生成动作完成一个任务以最优的方式类似于一个控制器的操作在一个控制系统。强化学习可以翻译使用以下控制系统表示的映射。

图显示与环境交互的一个代理。观察信号从环境到代理,和动作信号从代理到环境。奖励信号从环境到代理内部的强化学习算法。强化学习算法使用可用的信息来更新一个政策。代理使用政策来观察映射到一个动作。这类似于一个控制图,如下所示,一个控制器感官之间的一个错误所需的参考和植物产量和使用误差作用于植物输入。

强化学习 控制系统
政策 控制器
环境

一切不是控制器——在前面的图中,环境包括植物、参考信号,计算错误。一般来说,环境还可以包含其他元素,如:

  • 测量噪声

  • 干扰信号

  • 过滤器

  • 模拟-数字和数模转换器

观察

任何可测量的值从环境中可见到代理,在前面的图中,控制器可以看到误差信号的环境。您还可以创建代理观察,例如,参考信号,测量信号,测量信号变化率。

行动 被操纵的变量或控制行动
奖励 函数的测量,误差信号,或其他性能指标——例如,可以实现奖励功能,减少稳态误差同时最小化控制的努力。当控制规范等成本和约束功能可用,您可以使用generateRewardFunction生成一个奖励从MPC对象或函数模型验证模块。然后您可以使用生成的奖励作为起点奖励设计,例如通过改变权重或惩罚函数。
学习算法 一个自适应控制器的适应机制

遇到许多控制问题等领域的机器人和自动驾驶要求复杂,非线性控制架构。技术,如增益调度、鲁棒控制和非线性模型预测控制(MPC)可以用于这些问题,但往往需要大量专业领域从控制工程师。例如,收益和参数难以调整。产生的控制器可以带来了实现的挑战,如非线性MPC的计算强度。

您可以使用深层神经网络,使用强化学习培训,实现如此复杂的控制器。这些系统可以从一个专家自学没有干预控制工程师。一旦系统培训,您可以部署强化学习策略计算的有效方法。

您还可以使用强化学习创建一个端到端的控制器产生的行为直接从原始数据,如图像。这种方法很有吸引力对于video-intensive应用程序,如自动驾驶,因为你不需要手动定义和选择图像特征。

相关的话题