强化学习,第2部分:理解环境和回报

布莱恩•道格拉斯

在这个视频中,我们基于强化学习的探索工作流的基本理解。我们讲述什么是环境和一些培训的好处在一个模拟的环境。讨论我们最终希望我们的代理做的,如何制定一个奖励的功能鼓励代理来做到这一点。最后,我们介绍了需要选择一个方式来表示一个政策如何我们希望结构参数和逻辑构成决策代理的一部分。

上一节,我们介绍了高层介绍强化学习结束的时候,我告诉你我们不能跳进RL释放学习算法问题,完全不知道是什么意思正确设置问题。为了开始,你应该了解每个部分的RL工作流和流程有助于解决这个问题,有些决定是什么,你必须做。在这个视频中,我们将建立在我们的基本的理解强化学习和探索意味着什么设置问题。我是布莱恩,欢迎来到MATLAB技术说话。

现在我知道,我说理解你试图控制的系统是第一步,因为你不想选择强化学习如果传统的控制方法是更好的。然而,我认为这是更容易做出选择如果你有一个好的理解的RL工作流。因此,就目前而言,假设我们已经决定我们想利用强化学习和我们将讨论当不使用它在以后的视频一旦我们建立了良好的基础。

好的,让我们跳进RL工作流。我们需要一个环境,我们的代理可以学习,因此,我们需要选择应该存在于环境,无论它是一个模拟或真实的物理设置。然后我们需要考虑我们最终希望我们的代理做的和工艺奖励函数,将激励代理人。我们需要选择一种方式来表示一个政策如何我们希望结构参数和逻辑的决策代理的一部分。一旦我们有这个设置,我们选择一个训练算法和开始工作找到最优政策。最后,我们需要利用政策部署到代理领域并验证结果。把这个工作流程,让我们想想上下文中的每个步骤两个例子:一个倒立摆的平衡,让机器人走路。让我们去得到它。

环境是一切存在的外部代理。实际上,它的代理发送行动就是生成奖励和观察。

我认为这个概念有点混淆,尤其是来自一个控件的背景,因为我们倾向于认为环境之外的所有控制器和植物;道路的不完美、狂风和其他干扰,影响系统你想控制。但在强化学习,外面的环境是一切控制器。这将包括植物动力学。机器人的步行机器人的例子中,最是环境的一部分。代理的一些软件生成操作和更新政策通过学习。这是机器人的大脑,可以这么说。

这个区别很重要的原因是强化学习,代理不需要知道任何关于环境。这被称为模范自由RL,它是强大的,因为你可以把RL-equipped代理在任何系统,假设你已经考虑到政策进入观察,行动,和足够的内部状态,代理将学习如何收集最奖励自己。这意味着最初代理不需要知道任何关于我们的步行机器人。它仍然会找出如何收集奖励不知道例如关节移动或如何强大的执行机构或附件的长度。

但作为工程师,我们通常知道一些事情关于环境,那么为什么我们扔掉所有的物理知识,而不是帮助代理吗?这似乎是疯了!嗯,这是基于模型的RL可以帮助的地方。

没有任何对环境的理解,一个代理需要探索状态空间的所有领域填写其价值函数,这意味着它将会花一些时间在学习过程中探索低收益的领域。然而,作为设计师,我们通常知道的某些部分不值得探索的状态空间,所以通过提供一个模型的环境或环境的一部分,我们为代理提供这方面的知识。例如,代理是试图确定最快的路线到达目的地。这一点应该左转或右转去?没有一个模型,代理必须探索整个地图,知道什么是最好的行动。与一个模型,将代理可以探索正确的,身体的精神没有采取行动。它可以计算出正确的结果在一个死胡同,我们的代理会离开。通过这种方式,一个模型可以补充学习过程通过避免地区已知的是坏的,和探索和学习。

基于模型的RL很强大,但原因模范自由RL现在如此受欢迎是因为人们希望用它来解决问题,开发一个模型是困难的,比如一辆汽车或一个机器人控制从像素的观察。同时,因为模范自由RL是更一般的情况下,我们要专注于本系列的其余部分。

好的,我们知道代理学习通过与环境的交互,因此我们有一个代理来与之交互。这可能是一个物理环境或模拟。例如,对于倒立摆,我们可以让代理学习如何平衡通过运行物理摆的设置。这可能是一个很好的解决方案,因为它可能是硬件很难伤害自己或他人。步行机器人,然而,这可能不是一个好主意。你可以想象,如果代理将机器人和世界像一个黑盒子一无所知,那么它会做大量的下降甚至摇摇欲坠的之前学习了如何移动,更不用说如何走路。这不仅会损坏硬件,但它将是非常耗时的每次接机器人。不是最理想的。

所以,一个有吸引力的替代方法是训练你的代理在一个高保真的环境模型和模拟的学习经验。这样做有很多好处。

第一个来自样本低效率的概念。学习是一个过程,需要大量的样本:大量的试验,错误,和修正,经常在百万甚至上千万。所以模拟,你有能力实时运行速度比的学习过程,你也可以自旋向上的并行模拟和运行它们。

其他有益的事情你可以做的模型模拟环境条件,是在现实世界中难以测试。例如,步行机器人,可以模拟走在低摩擦的表面像冰一样,这将帮助机器人保持直立在所有表面。

需要模拟的好处是,对于控制问题我们通常已经有一个好的模型的系统和环境因为我们通常需要从传统的控制设计。这是如果你已经有一个模型在MATLAB仿真软件,可以取代你现有的控制器具有RL代理,奖励函数添加到环境中,并开始学习过程。金宝app

的困难之一是找出多少环境模型包括什么离开。然而,这是同样的问题你有建模时控制器设计的工厂,所以你可以使用相同的直觉系统建立一个RL环境模型。

一种方法是开始培训一个简单的模型,找到合适的超参数的组合,让训练成功,然后向模型中添加更多的复杂性。Hyper-parameters是我们可以打开旋钮训练集的算法学习速度和示例,我将介绍这个在以后的详细视频。

设置了环境,下一步是思考你想要你的代理做什么以及如何会奖励它做你想要的。这类似于等方面的成本函数,我们考虑性能与努力。

然而,不像在等二次成本函数,在RL没有限制创建一个奖励函数。我们可以有稀疏的奖励,或奖励每一个时间步,或奖励,只有最后的一集后很长一段时间。他们可以从一个非线性函数计算或使用成千上万的计算参数。真的,这完全取决于如何有效地训练你的代理。

想要得到一个倒立摆直立?那么提供更多回报的货给你们的代理商从垂直角度变小。想考虑控制器工作吗?然后减去奖励作为驱动器使用增加。想鼓励机器人走在地板上吗?然后给代理一个奖励当它到达遥远的一些国家。

说,做一个奖励函数很容易。它几乎可以是任何你能想到的功能。做一个好奖励功能,另一方面,是真的,真的很难。不幸的是,没有一个直接的方法工艺奖励来保证你的代理将聚集在你真正想要的解决方案。我认为这可以归结为两个主要原因。

,往往你想激励的目标是经过长时间序列的行动;这是稀疏的奖励制度。因此,你的代理人将跌倒在很长一段时间,在这个过程中没有得到任何回报。这将是步行机器人的机器人成功后,只给一个奖励走10米。机会你的代理会随机偶然遇到行动序列产生稀疏的奖励是非常不可能的。想象运气需要生成所有正确的运动命令保持机器人直立行走,而不是假摔在地上!

这是可能的,但依靠随机探索是非常缓慢的不切实际。

这种稀疏奖励问题可以得到改善,通过塑造reward-providing小中间奖励哄代理沿着正确的道路。但奖励形成有其自身的问题,这是第二个原因制定一个奖励函数是很困难的。如果你给一个优化算法快捷键,它会把它!和快捷键是隐藏在奖励功能,所以当你开始塑造他们。这将导致你的经纪人聚集在一个解决方案是最优考虑到奖励功能,但不理想。

一个简单的例子来考虑的是给一个中间奖励如果机器人的身体走了1米从当前位置。最优解可能不是走1米,而是秋天笨拙地奖励。学习算法,行走和下降都提供相同的奖励,但很明显,设计师,一个结果是首选。

我不想让制定奖励功能听起来很容易,因为它可能是在强化学习最困难的任务之一。然而,希望用这个概述你至少会更好地了解你的一些事情需要注意,可能会使制作奖励函数少一点痛苦。

现在我们的环境提供了奖励,我们准备开始工作在代理本身。代理是由政策和学习算法和这两个东西是紧密交织在一起的。许多学习算法需要一个特定的政策结构和选择一种算法的性质取决于环境。我们将讨论下个视频,但在我结束这个视频之前,我想介绍的主题,让我们思考如何策略中的参数和逻辑可以代表。

记住,国家的政策是一个函数,需要观察和输出操作,所以,任何函数的输入和输出关系是有效的。在这种思维方式,我们可以使用一个简单的表来代表政策。

表正是你所期望的。他们是一组数字,你使用一个输入查找地址和输出相应的价值。例如,Q-function是表映射状态和行动的价值。所以状态,S,这项政策将会查找所有可能的行动的价值状态和选择行动的最高的价值。和培训代理Q-function将包括发展随着时间的推移,所有的行动和他们的价值观为每一个国家。

这种类型的表示法分崩离析当行动值对的数量非常大或变得无限。这就是所谓的诅咒的维度。想象我们的倒立摆。摆的状态可以从π-π,任何角度和可以采取的行动可以是任何电动机转矩从负限制积极的限制。试图捕获所有的表中是不可行的。现在,我们可以代表政府行动空间的连续性质的连续函数。但设置这个功能,我们可以学习正确的参数要求我们提前知道函数的结构,这可能是困难的高自由度系统或非线性系统。

所以,试图代表政策是有意义的一个通用的函数近似者。东西可以处理连续状态的行动空间不用我们设置的结构。我们得到深刻的神经网络。

这就是我要离开这了。我们将继续下一节讨论。如果你不想错过未来科技视频说话,别忘了订阅这个通道。同样,如果你想看看我的通道,控制系统讲座,我控制覆盖更多的话题。谢谢收看,下次再见。