值表或Q表
价值表和Q表是代表批评批评资料的一种方法来代表加强学习。价值表存储奖励为有限一套观察。Q表存储相应的有限观察操作对的奖励。
使用a创建值函数表示rltable.
对象,使用一个rlvaluerepresentation
或rlqvalueerepresentation
对象。
rlvaluerepresentation |
增强学习代理的价值函数评论家代表 |
rlqvalueerepresentation |
Q-Value Function评论家为加固学习代理商表示 |