Emmanouil Tzorakoleftherakis,Mathworks
使用强化学习工具箱™和DQN算法执行简单摆的基于图像的反演。工作流由以下步骤组成:1)创建环境,2)指定策略表示,3)创建代理,4)列车代理和5)验证培训的策略。
提供的摆锤环境具有预定义的观察,行动和奖励。该动作包括五种可能的扭矩值,观察结果包括50x50灰度图像以及摆锤的角速率,并且奖励是距离所需向上位置的距离。了解如何使用深网络设计器应用程序构建Q函数的神经网络表示,由DQN代理用于近似长期奖励。
了解如何在培训期间可视化摆动行为,并监控培训进度。完成培训后,验证模拟中的策略以决定是否需要进一步培训。
您还可以从以下列表中选择一个网站:
选择中国网站(以中文或英文)以获取最佳网站性能。其他MathWorks国家网站未优化您的位置。