Emmanouil Tzorakoleftherakis, MathWorks
使用强化学习工具箱™和DQN算法来执行单摆的基于图像的反演。该工作流包括以下步骤:1)创建环境,2)指定策略表示,3)创建代理,4)训练代理,5)验证训练过的策略。
所提供的钟摆环境具有预先定义的观察、行动和奖励。动作包括5个可能的扭矩值,观察包括一个50x50灰度图像以及钟摆的角速度,奖励是到期望的向上位置的距离。学习如何使用深度网络设计应用程序来构建q函数的神经网络表示,DQN代理使用它来近似长期回报。
看看如何在训练过程中可视化钟摆行为,并监控训练进度。训练完成后,在模拟中验证策略,以决定是否需要进一步的训练。
你也可以从以下列表中选择一个网站:
请选择表现最佳的中国网站(中文或英文)。MathWorks的其他国家网站并没有针对您所在位置的访问进行优化。