值表或Q表
价值表和Q表是代表批评批评批评学习的一种方式。价值表存储有限一套观测的奖励。Q表存储相应有限观察操作对的奖励。
使用a创建值函数表示rltable.
对象,使用一个rlvalueerepresentation
或者rlqvalueerepresentation
目的。
rlvalueerepresentation |
增强学习代理的价值函数批评者表示 |
rlqvalueerepresentation |
Q-Value Function评论家强化学习代理的代表 |