奖励在强化学习设计软件不匹配实际的奖励

7视图(30天)

显示旧的评论

朱利安•霍夫曼 2021年10月8日

编辑: 朱利安•霍夫曼2021年10月9日

你好,

我使用了Matlab RL工具箱找到一个图论问题的解决方案。金宝搏官方网站简而言之,它是关于如何找到最好的来选车在一个十字路口,如果他们驾驶自动化和我们知道所有相关参数(他们是从哪里来的,他们想要去的地方,速度)。所以我们做了一个接近矩阵的,现在我们想找出这是订单的总时间最少。

我做了一个环境使用 rlFunctionEnv , 包括工作步骤和复位功能。如果限制被打破,即如果一辆车目前没有在第一行被选中或者汽车选择了不止一次,我给罚款,或负回报。如果没有,我给了积极的回报取决于接近矩阵中的值。如果所有的汽车放在一个订单没有车不止一次,有一个巨大的成功的奖励。

然后我用了RL设计师应用做一名演员(即使用DQN)。

现在我的问题是,奖励apparenlty不完全传输。因为当我检查仪表板应用程序,它总是显示每集应该少一步(即如果有6车,它只显示5步骤每集)。和回报不一样我告诉如何如何calcuate它们的代码。当我手动保存环境的奖励在代码中最后一个csv文件中的一段插曲,这显示正确。所以似乎工作的代码,它只是不工作相同的应用程序。总有一步失踪的奖励。我认为这是一个大问题,因为我认为所示的奖励就是演员的学习最终是基于。所以我的问题是:有人知道为什么以及如何解决这个问题呢?
另一个问题是,在训练一段时间后达到收敛,虽然不是最高的价值,而是几乎最差值,即当一个非常消极的整体奖励因为总是同样的汽车被选中。我尝试了各种各样的ε(衰减)和学习速率的变化。如何解决?

我希望你理解我的问题。我特别感兴趣的想法我的第一个问题似乎是一个特定的问题,我找不到的RL设计师应用暗示了其他地方。

提前谢谢!如果有什么不清楚,就问我:)

人工智能,数据科学和统计数据深度学习工具箱应用程序自主和控制系统强化学习

找到更多的在强化学习在帮助中心和文件交换

R2021a

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!