艾曼努伊尔·佐拉科勒菲瑟拉基斯,MathWorks
使用强化学习工具箱™ 该工作流包括以下步骤:1)创建环境,2)指定策略表示,3)创建代理,4)训练代理,5)验证训练过的策略。
所提供的摆锤环境具有预定义的观察、动作和奖励。动作包括五个可能的扭矩值,观察包括50x50灰度图像以及摆锤的角速率,奖励是从所需向上位置的距离。了解如何使用Deep Network Designer app构建Q函数的神经网络表示,由DQN代理用于近似长期奖励。
看看你如何在训练中可视化钟摆的行为,并监控训练的进展。培训完成后,在模拟中验证策略,以决定是否需要进一步的培训。
您还可以从以下列表中选择网站:
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家/地区网站未针对您所在地的访问进行优化。