集Q0究竟是什么?是给什么信息?
255(30天)
显示旧的评论
阅读文档我发现“代理与评论家,
集Q0
的估计是贴现长期奖励在每集的开始,考虑到环境的初步观察。随着培训的发展,如果批评是精心设计的。
集Q0
方法真正的折扣长期奖励”
但我不能理解究竟什么是Q0因为,除了几个例子(如
这一个
),“收敛”一些价值相当迅速,我见过Q0值做不同的事情,我不能understad或解释他们(如所示的两个例子
这里)
。我也不明白“真正的折扣奖励”exaclty意味着什么。是每一集,平均或累积的东西?
例如,在cartpole的例子中,如果一个人持续的培训更多集(改变停止培训标准以避免停车平均奖励),Q0值达到非常高的值无关的平均回报或事件。我模拟了1000集cartpole例子,Q0值甚至陷入困境的规模,因为太高了。代理接缝也学习正确,它甚至能够摆脱一些当地最低成功但是,我不能理解
什么信息Q0收益率
我没有发现Q0强化学习中定义的参考书目。请澄清一点或给一些bibliogtaphy我可以阅读进一步具体参数?
0评论
接受的答案
Emmanouil Tzorakoleftherakis
2021年6月22日
Q0通过执行计算推理的评论家每集的开始。有效,这是一个度量,告诉你如何评论家一直在训练。如果你有完美的评论家能够准确
预测
预期的长期奖励基于当前观测事件的开始,这个值应该与实际的重叠期间收集的总回报同样的事件。
一般来说,没有这样的事情发生,actor-critic所需使用之。演员可以收敛,在这一点上是完全可以停止训练。
希望这有助于