rlRepresentation
不推荐。根据表示创建的类型,使用下列对象而不是之一:
下面的表显示了一些典型使用的rlRepresentation
函数来创建神经网络批评家和演员,以及如何更新你的代码和一个新对象。
基于网络的表示:不推荐 |
基于网络的表示:推荐 |
代表= rlRepresentation (obsInfo净,“观察”,obsName) ,净 只有观察作为输入,和一个标量输出。
|
代表= rlValueRepresentation (obsInfo净,“观察”,obsName) 。使用这种语法创建一个评论家表示,不需要操作输入,如的评论家rlACAgent 或rlPGAgent 代理。
|
代表= rlRepresentation(净、obsInfo actInfo,“观察”,obsName,‘行动’,actName) ,净 观察和行动作为输入,和一个标量输出。
|
代表= rlQValueRepresentation(净、obsInfo actInfo,“观察”,obsName,‘行动’,actName) 。对于使用这种语法创建一个政府行动值表示一个评论家,观察和行动作为输入,如的评论家rlDQNAgent 或rlDDPGAgent 代理。
|
代表= rlRepresentation(净、obsInfo actInfo,“观察”,obsName,‘行动’,actName) ,净 观察作为输入和动作作为输出,actInfo 定义一个持续的行动空间。
|
代表= rlDeterministicActorRepresentation(净、obsInfo actInfo,“观察”,obsName,‘行动’,actName) 。使用这种语法创建一个确定性的参与者表示连续操作空间。
|
代表= rlRepresentation(净、obsInfo actInfo,“观察”,obsName,‘行动’,actName) ,净 观察作为输入和动作作为输出,actInfo 定义一个离散的行动空间。
|
代表= rlStochasticActorRepresentation(净、obsInfo actInfo,“观察”,obsName) 。使用这种语法创建一个随机的演员表示一个离散的行动空间。
|
下面的表显示了一些典型使用的rlRepresentation
对象基于表格来表达批评与离散观察和行动空间,以及如何更新你的代码和一个新对象。
表格表示:不推荐 |
推荐表格表示: |
代表= rlRepresentation(选项卡) ,选项卡 包含一个值表包含一个列向量的数量,只要可能的观测。
|
obsInfo代表= rlValueRepresentation(选项卡) 。使用这种语法创建一个评论家表示,不需要操作输入,如的评论家rlACAgent 或rlPGAgent 代理。
|
代表= rlRepresentation(选项卡) ,选项卡 表包含一个核反应能量尽可能多的行可能的观察和尽可能多的列的操作。
|
代表= rlQValueRepresentation(选项卡,obsInfo actInfo) 。对于使用这种语法创建一个政府行动值表示一个评论家,观察和行动作为输入,如的评论家rlDQNAgent 或rlDDPGAgent 代理。
|
下面的表显示了一些典型使用的rlRepresentation
函数来创建批评家和演员使用一个自定义的基函数,以及如何更新你的代码和一个新对象。在推荐的函数调用中,第一个输入参数是一个细胞包含两个元素的处理自定义基函数和初始权向量或矩阵。
自定义基础基于函数的表示:不推荐 |
自定义基础上基于函数的表示:推荐 |
代表= rlRepresentation (basisFcn W0 obsInfo) ,输入和基函数只有观察W0 是一个列向量。
|
代表= rlValueRepresentation ({basisFcn, W0}, obsInfo) 。使用这种语法创建一个评论家表示,不需要操作输入,如的评论家rlACAgent 或rlPGAgent 代理。
|
代表= rlRepresentation (basisFcn, W0 {obsInfo, actInfo}) 的基函数具有观察和行动作为输入W0 是一个列向量。
|
代表= rlQValueRepresentation ({basisFcn, W0}, obsInfo actInfo) 。对于使用这种语法创建一个政府行动值表示一个评论家,观察和行动作为输入,如的评论家rlDQNAgent 或rlDDPGAgent 代理。
|
代表= rlRepresentation (basisFcn W0、obsInfo actInfo) 观察,基函数作为输入输出和行动,W0 是一个矩阵,actInfo 定义了一个持续的行动空间。
|
代表= rlDeterministicActorRepresentation ({basisFcn, W0}, obsInfo actInfo) 。使用这种语法创建一个确定性的参与者表示连续操作空间。
|
代表= rlRepresentation (basisFcn W0、obsInfo actInfo) 观察,基函数作为输入输出和行动,W0 是一个矩阵,actInfo 定义了一个离散的行动空间。
|
代表= rlStochasticActorRepresentation ({basisFcn, W0}, obsInfo actInfo) 。使用这种语法创建一个确定的演员表示一个离散的行动空间。
|