EMMANOUIL Tzorakoleftherakis,MathWorks公司
使用增强的学习工具箱™和DQN算法进行简单摆的基于图像的反转。工作流程由以下步骤组成:1)创建环境,2)指定策略表示,3)创建剂,4)列车剂,和5)验证训练策略。
所提供的钟摆环境有预定义的看法,行动和奖励。这些操作包括五个可能的扭矩值,所述观察包括一个50×50的灰度图像,以及摆的角速度,并且所述奖励是由所期望的向上位置的距离。了解如何使用深层网络设计的应用程序构建的Q功能的神经网络表示,使用由DQN剂逼近长期回报。
看你怎么可以在训练中显现钟摆的行为,并监控训练进度。培训完成后,验证了政策模拟,以决定是否进一步的培训是必要的。
您还可以选择从下面的列表中的网站:
选择最佳的网站性能的中国网站(在中国或英文)。其他MathWorks的国家网站都没有从您的位置访问进行了优化。
本网站使用Cookies来改善您的用户体验,个性化的内容和广告,并分析网站流量。通过继续使用本网站,您同意我们使用Cookie。请参阅我们的隐私政策要了解更多关于cookie和如何更改设置。