集Q0究竟是什么?是给什么信息?

255(30天)
阅读文档我发现“代理与评论家, 集Q0 的估计是贴现长期奖励在每集的开始,考虑到环境的初步观察。随着培训的发展,如果批评是精心设计的。 集Q0 方法真正的折扣长期奖励”
但我不能理解究竟什么是Q0因为,除了几个例子(如 这一个 ),“收敛”一些价值相当迅速,我见过Q0值做不同的事情,我不能understad或解释他们(如所示的两个例子 这里) 。我也不明白“真正的折扣奖励”exaclty意味着什么。是每一集,平均或累积的东西?
这个答案 建议Q0应该追踪平均集奖励,但我不认为,在示例。
例如,在cartpole的例子中,如果一个人持续的培训更多集(改变停止培训标准以避免停车平均奖励),Q0值达到非常高的值无关的平均回报或事件。我模拟了1000集cartpole例子,Q0值甚至陷入困境的规模,因为太高了。代理接缝也学习正确,它甚至能够摆脱一些当地最低成功但是,我不能理解 什么信息Q0收益率
我没有发现Q0强化学习中定义的参考书目。请澄清一点或给一些bibliogtaphy我可以阅读进一步具体参数?

接受的答案

Emmanouil Tzorakoleftherakis
Emmanouil Tzorakoleftherakis 2021年6月22日
Q0通过执行计算推理的评论家每集的开始。有效,这是一个度量,告诉你如何评论家一直在训练。如果你有完美的评论家能够准确 预测 预期的长期奖励基于当前观测事件的开始,这个值应该与实际的重叠期间收集的总回报同样的事件。
一般来说,没有这样的事情发生,actor-critic所需使用之。演员可以收敛,在这一点上是完全可以停止训练。
希望这有助于
6个评论
阿尔阿里
阿尔阿里 2022年8月19日
同样的问题,谁能告诉集Q0计算吗?

登录置评。

更多的答案(0)

下载188bet金宝搏


释放

R2021a

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!