利用图像数据对倒立摆进行强化学习

Emmanouil Tzorakoleftherakis, MathWorks

使用Reinforcement Learning Toolbox™和DQN算法对一个简单的钟摆进行基于图像的反演。该工作流包括以下步骤:1)创建环境，2)指定策略表示，3)创建代理，4)培训代理，以及5)验证训练的策略。

所提供的钟摆环境有预先的观察、行动和奖励。动作包括5个可能的扭矩值，观察包括一个50x50灰度图像和钟摆的角速率，奖励是期望的向上位置的距离。学习如何使用Deep Network Designer app构建q函数的神经网络表示，DQN agent使用q函数来近似长期奖励。