主要内容

定义奖励信号

为了引导学习过程,加强学习使用环境生成的标量奖励信号。该信号测量代理关于任务目标的性能。换句话说,对于给定观察(州),奖励措施他采取特定行动的有效性。在培训期间,代理根据为不同的国家/动作组合收到的奖励更新其策略。有关不同类型的代理商以及他们在培训期间使用奖励信号的更多信息,请参阅<一种href="//www.tatmou.com/help/reinforcement-learning/ug/create-agents-for-reinforcement-learning.html" class="a">加固学习代理人。

一般而言,您提供积极的奖励,以鼓励某些代理行动和负奖励(惩罚)来阻止其他行动。精心设计的奖励信号指导代理人以最大限度地提高长期奖励的期望。什么构成精心设计的奖励取决于您的申请和代理目标。

例如,当代理必须尽可能长时间执行任务时,常见的策略是为代理成功执行任务以及当代理失败时的大惩罚的每次步骤都提供小的正奖励。这种方法鼓励更长的训练剧集,同时严重劝阻失败的剧集。有关使用此方法的示例,请参阅<一种href="//www.tatmou.com/help/reinforcement-learning/ug/train-dqn-agent-to-balance-cart-pole-system.html" class="a">培训DQN Agent来平衡车杆系统。

如果您的奖励功能包含多个信号,例如位置,速度和控制工作,则必须考虑信号的相对尺寸并相应地将其贡献扩展到奖励信号。

您可以指定连续或离散奖励信号。在任何一种情况下,您必须提供奖励信号,当动作和观察信号发生变化时提供丰富的信息。

连续奖励

连续奖励功能随着环境观测和行动的变化而连续变化。通常,连续奖励信号在训练期间提高收敛,可以导致更简单的网络结构。

连续奖励的一个例子是二次调节器(QR)成本函数,其中长期奖励可以表示为

j 一世 = - S. τ. T. 问: τ. S. τ. + σ. j = 一世 τ. S. j T. 问: j S. j + 一种 j T. R. j 一种 j + 2 S. j T. N. j 一种 j

这里,问:τ.问:R., 和N.是重量矩阵。问:τ.是终端重量矩阵,仅在集发作结束时应用。还,S.是观察矢量,一种是行动矢量,还有行动矢量τ.是剧集的终端迭代。这种成本函数的瞬时奖励是

R. 一世 = S. 一世 T. 问: 一世 S. 一世 + 一种 一世 T. R. 一世 一种 一世 + 2 S. 一世 T. N. 一世 一种 一世

这款QR奖励结构鼓励驾驶S.用最小的行动努力来零。基于QR的奖励结构是选择规则或静止点问题的良好奖励,例如摆动或调节双积分器的位置。对于使用QR奖励的培训示例,请参阅<一种href="//www.tatmou.com/help/reinforcement-learning/ug/train-dqn-agent-to-swing-up-and-balance-pendulum.html" class="a">培训DQN Agent以摆动和平衡摆锤和<一种href="//www.tatmou.com/help/reinforcement-learning/ug/train-ddpg-agent-to-balance-double-integrator-system.html" class="a">火车DDPG代理控制双积分系统。

平稳的连续奖励,如QR调节器,适用于微调参数,可以提供类似于最优控制器(LQR / MPC)的策略。

离散奖励

离散奖励函数在环境观测或行动的变化中不连续变化。这些类型的奖励信号可以使收敛速度较慢,并且可能需要更复杂的网络结构。离散奖励通常实施为活动在环境中发生 - 例如,如果代理在违反某些性能约束时超过某些目标值或惩罚,则当代理收到正奖励时。

虽然离散奖励可以减慢收敛,但它们也可以指导代理对环境的状态空间中更好的奖励区域。例如,基于区域的奖励,例如当代理在目标位置附近时的固定奖励,可以模拟最终状态约束。此外,基于区域的惩罚可以鼓励代理人避免状态空间的某些区域。

混合奖励

在许多情况下,提供了具有连续和离散奖励组件的组合的混合奖励信号是有益的。离散奖励信号可用于驱动系统远离不良状态,并且连续奖励信号可以通过提供靠近目标状态的平滑奖励来提高收敛。例如,在<一种href="//www.tatmou.com/help/reinforcement-learning/ug/train-agent-to-control-flying-robot.html" class="a">火车DDPG代理控制飞行机器人,奖励函数有三个组件:R.1R.2, 和R.3.

R. 1 = 10. X T. 2 + y T. 2 + θ. T. 2 < 0.5 R. 2 = - 100. | X T. | 20. | | | y T. | 20. R. 3. = - 0.2 R. T. - 1 + L. T. - 1 2 + 0.3 R. T. - 1 - L. T. - 1 2 + 0.03 X T. 2 + 0.03 y T. 2 + 0.02 θ. T. 2 R. = R. 1 + R. 2 + R. 3.

这里:

  • R.1是一种基于地区的连续奖励,仅适用于机器人的目标位置附近。

  • R.2是当机器人远离目标位置时提供大量惩罚。

  • R.3.是一个持续的QR罚款,适用于所有机器人状态。

相关话题