主要内容

强化学习是什么?

强化学习是一种目标导向的计算方法在计算机学会执行任务与一个未知的动态环境中交互。这种学习方法使电脑作出的一系列决定任务的累计回报最大化而无需人工干预和不明确编程来实现这个任务。下图显示了强化学习的一般表示场景。

图显示与环境交互的一个代理。观察信号从环境到代理,和动作信号从代理到环境。奖励信号从环境到代理内部的强化学习算法。强化学习算法使用可用的信息来更新一个政策。代理使用政策来观察映射到一个动作。这类似于一个控制图,如下所示,一个控制器感官之间的一个错误所需的参考和植物产量和使用误差作用于植物输入。

强化学习的目标是训练一个代理在一个未知的完成一项任务环境。代理接收观察和一个奖励从环境和发送行动环境。的回报是衡量成功的一个动作是对完成任务的目标。

代理包含两个组件:一个政策和一个学习算法

  • 政策是一个映射,选择行为的基础上,从环境中观察。通常,政策和可调参数是一个函数的估计值,如深层神经网络。

  • 学习算法不断更新政策参数的基础上操作,观察,和奖励。学习算法的目标是找到一个最优策略,最大化的累积奖励期间收到的任务。

换句话说,强化学习涉及到一个代理通过反复试错学习最优行为与环境的相互作用而无需人工干预。

作为一个例子,考虑停车车辆的任务使用一个自动驾驶系统。这个任务的目标是车辆计算机(代理)停车车辆的正确位置和姿态。,控制器使用数据从相机、加速度计、陀螺仪、GPS接收器和激光雷达(观察)生成转向、制动和加速命令(行动)。操作命令发送给执行机构,控制车辆。对观察结果依赖于致动器、传感器、车辆动力学、路面、风、和许多其他不太重要的因素。所有这些因素,也就是说,一切不是代理,构成环境在强化学习。

学习如何生成正确的行为的观察,计算机多次试图公园车辆使用试错过程。指导学习过程,您提供一个信号,即是当汽车成功地达到所需的位置和姿态,否则为0 (奖励)。在每个试验中,计算机选择操作使用映射(政策)与一些默认值初始化。每次试验后,电脑更新回报最大化的映射(学习算法)。这一过程持续进行直到计算机学习的最优映射成功公园的车。

强化学习工作流程

一般的工作流程培训代理使用强化学习包括以下步骤。

图显示一个典型的强化学习的七个阶段工作流。

  1. 制定问题——定义代理的任务学习,包括代理如何与环境交互和任何主要和次要的代理必须达成的目标。

  2. 创建环境——定义代理运行的环境,包括界面剂和环境和环境之间的动态模型。有关更多信息,请参见创建MATLAB强化学习环境创建模型强化学金宝app习环境

  3. 定义的奖励——指定代理使用的奖励信号测量其性能对任务目标和如何计算这个信号的环境。有关更多信息,请参见定义奖励信号

  4. 创建代理——创建代理,包括定义一个政策接近者(演员)一个价值函数近似者(批评)和配置代理学习算法。有关更多信息,请参见创建政策和价值功能强化学习代理

  5. 火车代理——培训代理使用定义环境接近者,奖励,代理学习算法。有关更多信息,请参见强化学习培训代理

  6. 验证代理——评估培训代理通过模拟剂的性能和环境联系在一起。有关更多信息,请参见强化学习培训代理

  7. 部署策略——部署培训政策接近者使用,例如,GPU代码生成。有关更多信息,请参见部署训练强化学习策略

使用强化学习培训代理是一个迭代的过程。决定,导致后期可能需要你回到早期阶段学习工作流程。例如,如果训练过程不收敛于最优政策在合理的时间内,你可能需要更新的一些培训之前代理:

  • 培训设置

  • 学习算法的配置

  • 政策和价值函数(演员和评论家)接近者

  • 奖励的信号定义

  • 行动和观测信号

  • 环境动态

相关的例子

更多关于