强化学习的倒立摆图像数据

EMMANOUIL Tzorakoleftherakis，MathWorks公司

使用增强的学习工具箱™和DQN算法进行简单摆的基于图像的反转。工作流程由以下步骤组成：1）创建环境，2）指定策略表示，3）创建剂，4）列车剂，和5）验证训练策略。

所提供的钟摆环境有预定义的看法，行动和奖励。这些操作包括五个可能的扭矩值，所述观察包括一个50×50的灰度图像，以及摆的角速度，并且所述奖励是由所期望的向上位置的距离。了解如何使用深层网络设计的应用程序构建的Q功能的神经网络表示，使用由DQN剂逼近长期回报。