控制系统应用程序的强化学习
强化学习的行为的伏笔,政策观察环境并生成动作完成一个任务以最优的方式类似于一个控制器的操作在一个控制系统。强化学习可以翻译使用以下控制系统表示的映射。
强化学习 | 控制系统 |
---|---|
政策 | 控制器 |
环境 | 一切不是控制器——在前面的图中,环境包括植物、参考信号,计算错误。一般来说,环境还可以包含其他元素,如:
|
观察 | 任何可测量的值从环境中可见到代理,在前面的图中,控制器可以看到误差信号的环境。您还可以创建代理观察,例如,参考信号,测量信号,测量信号变化率。 |
行动 | 被操纵的变量或控制行动 |
奖励 | 函数的测量,误差信号,或其他性能指标——例如,可以实现奖励功能,减少稳态误差同时最小化控制的努力。当控制规范等成本和约束功能可用,您可以使用generateRewardFunction 生成一个奖励从MPC对象或函数模型验证模块。然后您可以使用生成的奖励作为起点奖励设计,例如通过改变权重或惩罚函数。 |
学习算法 | 一个自适应控制器的适应机制 |
遇到许多控制问题等领域的机器人和自动驾驶要求复杂,非线性控制架构。技术,如增益调度、鲁棒控制和非线性模型预测控制(MPC)可以用于这些问题,但往往需要大量专业领域从控制工程师。例如,收益和参数难以调整。产生的控制器可以带来了实现的挑战,如非线性MPC的计算强度。
您可以使用深层神经网络,使用强化学习培训,实现如此复杂的控制器。这些系统可以从一个专家自学没有干预控制工程师。一旦系统培训,您可以部署强化学习策略计算的有效方法。
您还可以使用强化学习创建一个端到端的控制器产生的行为直接从原始数据,如图像。这种方法很有吸引力对于video-intensive应用程序,如自动驾驶,因为你不需要手动定义和选择图像特征。