主要内容

什么是强化学习?

增强学习是一种目标定向的计算方法,计算机学习通过与未知的动态环境进行交互来执行任务。这种学习方法使计算机能够制作一系列决策,以最大化任务的累积奖励,而无需进行人为干预,而不明确地编程以实现任务。下图显示了加强学习情景的一般表示。

强化学习的目标是训练一个代理人完成一个未知的任务环境。代理人收到观察和一个奖励从环境而发行动环境。奖励是衡量一个行动在完成任务目标方面是否成功的标准。

agent由两部分组成:a政策和一个学习算法

  • 该策略是一个映射,它根据环境中的观察选择actions。通常,该策略是具有可调谐参数的函数近似器,例如深神经网络。

  • 学习算法根据动作、观察和奖励不断更新策略参数。该学习算法的目标是找到一个最优策略,使在任务过程中获得的累积奖励最大化。

换句话说,强化学习涉及通过与环境的反复试验和错误的相互作用来学习最佳行为而没有人为参与。

举个例子,考虑一下使用自动驾驶系统停车的任务。本任务的目标是为车辆计算机(代理人)将车辆停放在正确的位置和方向。为此,控制器使用摄像机,加速度计,陀螺仪,GPS接收器和LIDAR的读数(观察)生成转向,制动和加速命令(行动)。动作命令被发送到控制车辆的执行器。由此产生的观察取决于执行器,传感器,车辆动力学,路面,风和许多其他不太重要的因素。所有这些因素,即不是代理人的一切,弥补了环境在加固学习中。

为了学习如何从观察结果中产生正确的动作,计算机通过反复试错的过程来尝试停车。为指导学习过程,您提供一个信号,当汽车成功到达所需的位置和方向时为1,否则为0 (奖励)。在每次试验中,计算机使用映射(政策)使用一些默认值初始化。每次试用后,计算机更新映射以最大化奖励(学习算法)。此过程持续到计算机学习最佳映射,以成功停放汽车。

加强学习工作流程

使用强化学习训练代理的一般工作流程包括以下步骤。

  1. 制定问题- 定义代理学习的任务,包括代理商如何与环境和代理必须实现的任何主要和次要目标进行交互。

  2. 创建环境- 定义代理操作的环境,包括代理与环境与环境动态模型之间的接口。有关更多信息,请参阅创建MATLAB强化学习环境创建Simul金宝appink强化学习环境

  3. 定义奖励- 指定代理用于衡量其对任务目标的性能以及如何从环境计算此信号的奖励信号。有关更多信息,请参阅定义奖励信号

  4. 创建代理- 创建代理,包括定义策略表示和配置代理学习算法。有关更多信息,请参阅创建策略和值函数表示强化学习代理

  5. 火车代理—使用定义的环境、奖励和agent学习算法训练agent策略表示。有关更多信息,请参阅火车加固学习代理

  6. 验证代理-通过模拟agent和环境来评估训练agent的性能。有关更多信息,请参阅火车加固学习代理

  7. 部署政策- 使用例如生成的GPU代码部署训练策略表示。有关更多信息,请参阅部署培训的强化学习政策

使用强化学习培训代理商是一个迭代过程。决策和结果在以后的阶段可以要求您在学习工作流程中返回早期阶段。例如,如果培训过程在合理的时间内不会收敛到最佳策略,则可能必须在刷新代理之前更新以下任何内容:

  • 培训设置

  • 学习算法的配置

  • 政策代表性

  • 奖励信号定义

  • 动作和观测信号

  • 环境动态

相关的话题