奖励在强化学习设计软件不匹配实际的奖励

7视图(30天)
你好,
我使用了Matlab RL工具箱找到一个图论问题的解决方案。金宝搏官方网站简而言之,它是关于如何找到最好的来选车在一个十字路口,如果他们驾驶自动化和我们知道所有相关参数(他们是从哪里来的,他们想要去的地方,速度)。所以我们做了一个接近矩阵的,现在我们想找出这是订单的总时间最少。
我做了一个环境使用 rlFunctionEnv , 包括工作步骤和复位功能。如果限制被打破,即如果一辆车目前没有在第一行被选中或者汽车选择了不止一次,我给罚款,或负回报。如果没有,我给了积极的回报取决于接近矩阵中的值。如果所有的汽车放在一个订单没有车不止一次,有一个巨大的成功的奖励。
然后我用了RL设计师应用做一名演员(即使用DQN)。
  1. 现在我的问题是,奖励apparenlty不完全传输。因为当我检查仪表板应用程序,它总是显示每集应该少一步(即如果有6车,它只显示5步骤每集)。和回报不一样我告诉如何如何calcuate它们的代码。当我手动保存环境的奖励在代码中最后一个csv文件中的一段插曲,这显示正确。所以似乎工作的代码,它只是不工作相同的应用程序。总有一步失踪的奖励。我认为这是一个大问题,因为我认为所示的奖励就是演员的学习最终是基于。所以我的问题是:有人知道为什么以及如何解决这个问题呢?
  2. 另一个问题是,在训练一段时间后达到收敛,虽然不是最高的价值,而是几乎最差值,即当一个非常消极的整体奖励因为总是同样的汽车被选中。我尝试了各种各样的ε(衰减)和学习速率的变化。如何解决?
我希望你理解我的问题。我特别感兴趣的想法我的第一个问题似乎是一个特定的问题,我找不到的RL设计师应用暗示了其他地方。
提前谢谢!如果有什么不清楚,就问我:)

答案(0)

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!