主要内容

定义奖励信号

指导学习过程,强化学习使用一个标量奖励信号产生的环境。这个信号措施代理对任务的性能目标。换句话说,对于一个给定的观察(状态),奖励措施采取特定行动的有效性。培训期间,代理更新其政策根据接收到的奖励不同的政府行动的组合。更多信息在不同类型的代理商和他们如何使用奖励信号在训练,明白了<一个href="//www.tatmou.com/es/es/help/reinforcement-learning/ug/create-agents-for-reinforcement-learning.html" class="a">强化学习代理。

一般来说,你提供一个积极的奖励鼓励某些代理行为和消极的奖励(点球)阻止其他操作。一个设计良好的奖励信号引导代理最大化长期回报的期望。什么是一个设计良好的回报取决于您的应用程序和代理的目标。

例如,当代理人必须尽可能长时间执行一个任务,一个常见的策略是提供一个小积极奖励每个时间步,代理成功执行任务和一个大点球代理失败。这种方法鼓励再训练集而严重阻碍集失败。例如,使用这种方法,明白了<一个href="//www.tatmou.com/es/es/help/reinforcement-learning/ug/train-dqn-agent-to-balance-cart-pole-system.html" class="a">火车DQN代理Cart-Pole平衡系统。

如果你的回报函数包含多个信号,如位置,速度,和控制工作,您必须考虑信号的相对大小和规模奖励他们的贡献相应信号。

您可以指定连续或离散信号的奖励。在这两种情况下,您必须提供一个奖励的信号,提供了丰富的信息,当行动和观测信号变化。

控制系统应用程序的规范成本函数和约束已经可用,您还可以使用产生的回报函数从这些规范。

连续奖励

连续奖励函数变化与环境的变化不断观察和操作。一般来说,连续奖励信号改善收敛在训练和简单的网络结构。

连续二次调节器奖励的一个例子(QR)成本函数,在长期的奖励可以表示为

J = ( 年代 τ T τ 年代 τ + j = τ 年代 j T j 年代 j + 一个 j T R j 一个 j + 2 年代 j T N j 一个 j )

在这里,问<年代ub>τ,,R,N权重矩阵。问<年代ub>τ是终端权重矩阵,应用的最后一集。同时,年代是观察向量,一个是动作向量,然后呢τ的终端迭代。这个成本函数的瞬时奖励

r = 年代 T 年代 + 一个 T R 一个 + 2 年代 T N 一个

这个QR奖励结构鼓励驾驶年代以最小的行动努力为零。QR-based奖励结构是一个很好的奖励选择监管或驻点的问题,如钟摆摆起或调节双积分器的位置。培训使用QR奖励的例子,看看<一个href="//www.tatmou.com/es/es/help/reinforcement-learning/ug/train-dqn-agent-to-swing-up-and-balance-pendulum.html" class="a">火车DQN代理和平衡摆摆动和<一个href="//www.tatmou.com/es/es/help/reinforcement-learning/ug/train-ddpg-agent-to-balance-double-integrator-system.html" class="a">火车DDPG剂来控制双积分器系统。

光滑连续的奖励,比如QR监管机构,有利于调整参数和类似于最优控制器能提供政策等方面/ MPC)。

离散的奖励

离散奖励函数变化不连续地与环境的变化观察或操作。这些类型的奖励信号可以使收敛速度较慢,可能需要更复杂的网络结构。通常实现为离散的回报<年代pan class="emphasis">事件发生在环境的例子中,当代理接收到一个积极的回报超过目标值或一个点球时违反了一些性能约束。

虽然离散奖励可以减缓收敛,他们还可以引导代理更好的奖励地区环境的状态空间。例如,提出奖励,如固定奖励目标位置附近的代理时,可以模拟最终状态约束。同时,提出惩罚可以鼓励代理避免某些区域的状态空间。

混合的奖励

在许多情况下,提供一个混合奖励信号,结合连续和离散奖励组件是有益的。离散奖励信号可以用来驱动系统远离糟糕的状态,和连续奖励信号可以提高收敛目标州附近通过提供一个光滑的奖励。例如,在<一个href="//www.tatmou.com/es/es/help/reinforcement-learning/ug/train-agent-to-control-flying-robot.html" class="a">火车DDPG剂来控制飞行机器人,奖励函数有三个组件:r1,r2,r3

r 1 = 10 ( ( x t 2 + y t 2 + θ t 2 ) < 0.5 ) r 2 = One hundred. ( | x t | 20. | | | y t | 20. ) r 3 = ( 0.2 ( R t 1 + l t 1 ) 2 + 0.3 ( R t 1 l t 1 ) 2 + 0.03 x t 2 + 0.03 y t 2 + 0.02 θ t 2 ) r = r 1 + r 2 + r 3

在这里:

  • r1提出连续奖励,只适用于机器人的目标位置附近。

  • r2离散信号,它提供了一个大点球当机器人移动目标位置。

  • r3是一个持续的QR处罚,适用于所有机器人的状态。

奖励一代从控制规范

一个工作应用程序的控制系统已经存在,规格如成本函数或约束可能已经可用。在这些情况下,您可以使用<一个href="//www.tatmou.com/es/es/help/reinforcement-learning/ref/generaterewardfunction.html">generateRewardFunction在MATLAB生成一个奖励功能,编码<年代up>®可以作为一个起点,奖励的设计。这个函数允许您生成奖励:

  • 成本和约束规范中定义的一个<一个href="//www.tatmou.com/es/es/help/mpc/ref/mpc.html">货币政策委员会(模型预测控制工具箱)或<一个href="//www.tatmou.com/es/es/help/mpc/ref/nlmpc.html">nlmpc(模型预测控制工具箱)控制器对象。该功能需要模型预测控制工具箱™软件。

  • 中定义的性能限制<年代pan class="entity">金宝app®优化设计™模型验证模块。

在这两种情况下,当约束违反,负奖励计算使用罚款等功能<一个href="//www.tatmou.com/es/es/help/reinforcement-learning/ref/exteriorpenalty.html">exteriorPenalty(默认),<一个href="//www.tatmou.com/es/es/help/reinforcement-learning/ref/hyperbolicpenalty.html">hyperbolicPenalty或<一个href="//www.tatmou.com/es/es/help/reinforcement-learning/ref/barrierpenalty.html">barrierPenalty功能。

从生成的奖励功能,您可以调整的成本和惩罚权重,使用不同的罚函数,然后使用结果回报函数在一个环境来训练一个代理。

另请参阅

功能

  • |<年代pan itemscope itemtype="//www.tatmou.com/help/schema/MathWorksDocPage/SeeAlso" itemprop="seealso">|<年代pan itemscope itemtype="//www.tatmou.com/help/schema/MathWorksDocPage/SeeAlso" itemprop="seealso">|<年代pan itemscope itemtype="//www.tatmou.com/help/schema/MathWorksDocPage/SeeAlso" itemprop="seealso">

相关的话题