强化学习代理核反应能量函数评论家表示
对象实现了核反应能量函数的估计值作为一个评论家在强化学习代理。核反应能量函数是一个函数,将一对observation-action映射到一个标量值代表预期的长期回报,代理总预计将从给定的观察和积累,当它开始执行给定的操作。核反应能量函数批评家因此需要观察和行动作为输入。当你创建一个rlQValueRepresentation
评论家,使用它来创建一个代理依靠核反应能量函数评论家,如一个rlQAgent
,rlDQNAgent
,rlSARSAAgent
,rlDDPGAgent
,或rlTD3Agent
。创建表示更多的信息,请参阅创建政策和价值函数表示。
创建了核反应能量函数评论家
= rlQValueRepresentation (净
,observationInfo
,actionInfo
“观察”,obsName
“行动”,actName
)评论家
。净
是深层神经网络用作接近者,必须观察和行动作为输入,和一个标量输出。这个语法设置ObservationInfo和ActionInfo的属性评论家
分别输入observationInfo
和actionInfo
,包含观察和操作规范。obsName
必须包含的输入层的名字吗净
与观察相关规范。动作名称actName
必须输入层的名字吗净
相关联的行动规范。
创建了核反应能量函数为基础评论家
= rlQValueRepresentation (选项卡
,observationInfo
,actionInfo
)评论家
与离散行动和观察空间从核反应能量表选项卡
。选项卡
是一个rlTable
对象包含一个表与尽可能多的行作为观察和尽可能多的列的操作。这个语法设置ObservationInfo和ActionInfo的属性评论家
分别输入observationInfo
和actionInfo
,必须rlFiniteSetSpec
对象包含离散观测规范和行动空间,分别。
创建一个核反应能量函数评论家
= rlQValueRepresentation ({basisFcn
,W0
},observationInfo
,actionInfo
)评论家
使用一个自定义的基函数作为潜在的估计值。第一个输入参数是一个两个元素细胞中第一个元素包含了处理basisFcn
一个自定义的基函数,第二个元素包含初始权向量W0
。在这里,基函数作为输入,必须观察和行动W0
必须是一个列向量。这个语法设置ObservationInfo和ActionInfo的属性评论家
分别输入observationInfo
和actionInfo
。
创建多输出核反应能量函数评论家
= rlQValueRepresentation (净
,observationInfo
,actionInfo
“观察”,obsName
)评论家
一个离散的行动空间。净
深层神经网络作为近似者,而且必须只有观察作为输入和一个输出层有尽可能多的元素数量的离散动作。这个语法设置ObservationInfo和ActionInfo的属性评论家
分别输入observationInfo
和actionInfo
,包含观察和操作规范。在这里,actionInfo
必须是一个rlFiniteSetSpec
对象包含的离散的行动空间。观察的名字obsName
必须输入层的名称吗净
。
创建多输出核反应能量函数评论家
= rlQValueRepresentation ({basisFcn
,W0
},observationInfo
,actionInfo
)评论家
一个离散的行动空间使用一个自定义的基函数作为潜在的估计值。第一个输入参数是一个两个元素细胞中第一个元素包含了处理basisFcn
一个自定义的基函数,第二个元素包含初始权重矩阵W0
。这里的基函数必须只有观测数据作为输入,和W0
必须有尽可能多的列的数量可能的行动。这个语法设置ObservationInfo和ActionInfo的属性评论家
分别输入observationInfo
和actionInfo
。
创建基于价值函数评论家
= rlQValueRepresentation (___,选项
)评论家
使用额外的选项集选项
,这是一个rlRepresentationOptions
对象。这个语法设置选项的属性评论家
到选项
输入参数。您可以使用该语法与任何以前的输入参数组合。
rlDDPGAgent |
深决定性策略梯度强化学习代理 |
rlTD3Agent |
Twin-delayed深决定性策略梯度强化学习代理 |
rlDQNAgent |
深Q-network强化学习代理 |
rlQAgent |
q学习的强化学习代理 |
rlSARSAAgent |
撒尔沙强化学习代理 |
rlSACAgent |
软actor-critic强化学习代理 |
getValue |
获得估计价值函数表示 |
getMaxQValue |
获得最大的州值函数估计为核反应能量函数表示离散的行动空间 |