机器人通过强化学习快速自学走路

作者丽莎·哈维,2019年5月16日

18次查看（过去 30天） | 0个赞 | 10个评论

来自南加州大学的一组研究人员瓦莱罗实验室建立了一个相对简单的机械手臂，完成了一些简单而令人惊奇的事情：三腱、两关节的机械腿教会了自己如何移动。是的，通过反复试验进行自主学习。

该研究小组由弗朗西斯科·瓦莱罗·库瓦斯教授和博士生阿里·马尔贾尼尼亚德领导。他们的研究成果刊登在《科学》三月号的封面上自然机器智能.

瓦莱罗实验室的新机器人肢体。图片来源：南加州大学。

机器人肢体不是为特定任务而编程的。它首先通过对自身的动态特性建模，然后使用一种称为强化学习的人工智能（AI）形式进行自主学习。机器人肢体能够在几分钟内教会自己移动，而不是一周又一周地编码。

灵感来自大自然

机器人专家一直受到大自然的启发，因为，让我们面对现实吧，大自然母亲花了很长时间来完善她的设计。今天，我们看到的机器人像蜘蛛一样走路水下机器人灵感来自海蛇.

生物灵感还影响机器人“思考”的方式，这要归功于模仿生物神经系统处理信息方式的人工智能。例如，人工神经网络（ANN）已被用于复制昆虫的大脑结构改进手写数字的计算机识别。

在这个项目中，设计从自然中汲取了灵感，包括腿部的物理设计和帮助腿部“学习”的人工智能行走。在物理设计上，这条机器人腿使用了肌腱结构，很像驱动动物运动的肌肉和肌腱结构。人工智能也从大自然中汲取灵感，使用人工神经网络帮助机器人学习如何控制其运动。然后，强化学习利用对动力学的理解来适应实现在跑步机上行走的目标。

强化学习与“马达喋喋不休”

通过将“马达牙牙学语”与强化学习相结合，系统尝试随机运动，并通过运动结果学习系统的特性。在这项研究中，研究小组首先让系统随机播放，或“马达牙牙学语”，以学习肢体的特性及其动力学。

在一个采访电脑杂志Marjaninejad说，“然后，每当[系统]在某项任务中表现良好时，我们就会给它一个奖励。在这种情况下，将跑步机向前移动。这被称为强化学习，因为它类似于动物对积极强化的反应。”

由此产生的算法称为G2P（从一般到特殊）。它通过从肌腱移动肢体时发生的运动中学习，复制生物神经系统在控制肢体时面临的“一般”问题。然后强化（奖励）“特殊”行为到任务。在这种情况下，任务成功地移动了跑步机。系统通过马达的叽叽喳喳声创建对其动力学的“一般”理解，然后通过学习每次经验或G2P掌握所需的“特定”任务。

结果令人印象深刻。G2P算法只需5分钟的非结构化游戏，就可以自己学习一个新的行走任务，然后无需任何额外编程就可以适应其他任务。