集Q0究竟是什么?是给什么信息?

255(30天)

显示旧的评论

塞西莉亚。 2021年6月11日

0
链接

这个问题直接联系

//www.tatmou.com/matlabcentral/answers/854195-what-exactly-is-episode-q0-what-information-is-it-giving

评论道: 阿尔阿里2022年8月19日

答:接受 Emmanouil Tzorakoleftherakis

阅读文档我发现“代理与评论家, 集Q0 的估计是贴现长期奖励在每集的开始,考虑到环境的初步观察。随着培训的发展,如果批评是精心设计的。集Q0 方法真正的折扣长期奖励”

但我不能理解究竟什么是Q0因为,除了几个例子(如这一个 ),“收敛”一些价值相当迅速,我见过Q0值做不同的事情,我不能understad或解释他们(如所示的两个例子这里) 。我也不明白“真正的折扣奖励”exaclty意味着什么。是每一集,平均或累积的东西?

在这个答案建议Q0应该追踪平均集奖励,但我不认为,在示例。

例如,在cartpole的例子中,如果一个人持续的培训更多集(改变停止培训标准以避免停车平均奖励),Q0值达到非常高的值无关的平均回报或事件。我模拟了1000集cartpole例子,Q0值甚至陷入困境的规模,因为太高了。代理接缝也学习正确,它甚至能够摆脱一些当地最低成功但是,我不能理解什么信息Q0收益率

我没有发现Q0强化学习中定义的参考书目。请澄清一点或给一些bibliogtaphy我可以阅读进一步具体参数?