rlRepresentation

(不推荐)模型表示为强化学习代理

自从R2019a

rlRepresentation不推荐。使用rlValueRepresentation,rlQValueRepresentation,rlDeterministicActorRepresentation,或rlStochasticActorRepresentation代替。有关更多信息,请参见兼容性的考虑。

语法

代表= rlRepresentation (obsInfo净,“观察”,obsNames)

代表= rlRepresentation(净、obsInfo actInfo,“观察”,obsNames,‘行动’,actNames)

tableCritic = rlRepresentation(选项卡)

评论家= rlRepresentation (basisFcn W0 obsInfo)

评论家= rlRepresentation (basisFcn W0 oaInfo)

演员= rlRepresentation (basisFcn W0、obsInfo actInfo)

代表= rlRepresentation (___repOpts)

描述

使用rlRepresentation创建一个函数的估计值的演员或评论家表示强化学习代理。这样做,你们指定的观察和行动信号影响的培训的培训环境和选择一个代理使用表示。创建表示更多的信息,请参阅创建政策和价值功能。

例子

代表= rlRepresentation (净,obsInfo“观察”,obsNames)创建一个表示深刻的神经网络净。观察的名字obsNames网络输入层的名字。obsInfo包含相应的观测规范的培训环境。使用这种语法创建一个评论家表示,不需要操作输入,如的评论家rlACAgent或rlPGAgent代理。

例子

代表= rlRepresentation (净,obsInfo,actInfo“观察”,obsNames“行动”,actNames)创建一个指定的名称与行动表示信号actNames和规范actInfo。使用这种语法创建一个表示对于任何演员,或一个评论家,观察和行动作为输入,如的评论家rlDQNAgent或rlDDPGAgent代理。

例子

tableCritic= rlRepresentation (选项卡)创建一个评论家表示为Q值表或表选项卡。当你创建一个表表示,当您创建指定观察和操作规范选项卡。

评论家= rlRepresentation (basisFcn,W0,obsInfo)创建一个线性基函数表示使用一个自定义的基函数的句柄basisFcn和初始权向量W0。obsInfo包含相应的观测规范的培训环境。使用这种语法创建一个评论家表示,不需要操作输入,如的评论家rlACAgent或rlPGAgent代理。

评论家= rlRepresentation (basisFcn,W0,oaInfo)创建一个线性基函数表示单元阵列使用规范oaInfo,在那里oaInfo={obsInfo, actInfo}。使用这种语法创建一个表示一个评论家,观察和行动作为输入,如的评论家rlDQNAgent或rlDDPGAgent代理。

演员= rlRepresentation (basisFcn,W0,obsInfo,actInfo)创建一个使用指定的线性基函数表示的观察和操作规范,obsInfo和actInfo,分别。使用这种语法创建一个表示一个演员,观测数据作为输入,并生成操作。

例子

代表= rlRepresentation (___,repOpts)使用额外的选项,指定学习创建一个表示参数表示当你训练一个代理。可用的选项包括优化器用于培训和学习速率。使用rlRepresentationOptions创建选项集repOpts。您可以使用该语法与任何以前的输入参数组合。

例子

全部折叠

创建演员和评论家表示

创建一个演员表示和评论家表示,您可以用它来定义一个强化学习代理等演员评论家(AC)代理。

对于这个示例,创建演员和评论家表示为一个代理可以对cart-pole训练环境中描述培训交流代理Cart-Pole平衡系统。首先,创建环境。然后,从环境中提取观测和操作规范。你需要这些规范来定义代理和评论家表示。

env = rlPredefinedEnv (“CartPole-Discrete”);obsInfo = getObservationInfo (env);actInfo = getActionInfo (env);

等state-value-function批评那些用于AC或PG代理,输入是观察和输出应该是一个标量值,状态值。对于这个示例,创建评论家表示使用深神经网络和一个输出,并与观测信号对应x, xdot,θ,thetadot中描述的培训交流代理Cart-Pole平衡系统。您可以获得的观测数量obsInfo规范。网络层的输入名称“观察”。

numObservation = obsInfo.Dimension (1);criticNetwork = [imageInputLayer [numObservation 1 (1)“归一化”,“没有”,“名字”,“观察”)fullyConnectedLayer (1,“名字”,“CriticFC”));

使用指定选项评论家表示rlRepresentationOptions。这些选项控制参数的评论家网络学习,当你训练一个代理了评论家表示。对于这个示例,将学习速率为0.05和梯度阈值为1。

repOpts = rlRepresentationOptions (“LearnRate”5飞行,“GradientThreshold”1);

创建一个使用指定的评论家表示神经网络和选项。同时,指定的操作和观察信息评论家。设置观测的名字“观察”创建时,这是你使用网络的输入层criticNetwork。

评论家= rlRepresentation (criticNetwork obsInfo,“观察”,{“观察”},repOpts)

评论家= rlValueRepresentation属性:选择:[1 x1 rl.option。rlRepresentationOptions] ObservationInfo: [1 x1 rl.util。rlNumericSpec] ActionInfo: {1} x0细胞

类似地,创建一个网络的演员。AC代理决定哪些操作使用演员表示给定的观测。对于一个演员来说,输入的观察,和输出取决于空间是离散或连续的动作。演员的这个例子中,有两个可能的离散动作,-10年或10。创建演员,因此,使用深度观察相同的神经网络输入的评论家,能够输出这两个值。您可以获得的行为的数量actInfo规范。名字的输出“行动”。

numAction =元素个数(actInfo.Elements);actorNetwork = [imageInputLayer ((4 1 1),“归一化”,“没有”,“名字”,“观察”)fullyConnectedLayer (numAction“名字”,“行动”));

使用观察创建演员表示名称和规范和操作名称和规范。选择使用相同的表示。

演员= rlRepresentation (actorNetwork obsInfo actInfo,…“观察”,{“观察”},“行动”,{“行动”},repOpts)

演员= rlStochasticActorRepresentation属性:选择:[1 x1 rl.option。rlRepresentationOptions] ObservationInfo: [1 x1 rl.util。rlNumericSpec] ActionInfo: [1x1 rl.util.rlFiniteSetSpec]

您现在可以使用演员和评论家表示创建一个交流代理。

agentOpts = rlACAgentOptions (…“NumStepsToLookAhead”32岁的…“DiscountFactor”,0.99);代理= rlACAgent(演员、评论家、agentOpts)

代理= rlACAgent属性:AgentOptions: [1 x1 rl.option.rlACAgentOptions]

创建Q表表示

这个例子展示了如何创建一个Q表表示:

创造一个环境接口。

env = rlPredefinedEnv (“BasicGridWorld”);

创建一个Q表使用的行动和观测规范环境。

qTable = rlTable (getObservationInfo (env) getActionInfo (env));

创建一个表示为Q表。

tableRep = rlRepresentation (qTable);

创建二次基函数评论家表示

这个例子展示了如何创建一个线性基函数评论家表示。

假设您有一个环境,env。对于这个示例,负载使用的环境火车定制等方面代理的例子。

负载myLQREnv.mat

从环境中获得观察和操作规范。

obsInfo = getObservationInfo (env);actInfo = getActionInfo (env);

创建一个定制的基函数。在这种情况下,用二次基函数火车定制等方面代理。

设置所需的尺寸和参数你的基函数。

n = 6;

设置一个初始权向量。

的w0 = 0.1 * (0.5 * (n + 1) * n, 1);

创建一个表示使用自定义基函数的句柄。

评论家= rlRepresentation (@ (x, u) computeQuadraticBasis (x, u, n), w0, {obsInfo, actInfo});

函数计算的二次基础火车定制等方面代理。

函数B = computeQuadraticBasis (x, u, n) z =猫(1,x, u);idx = 1;为r = 1: n为c = r: n如果idx = = 1 B = z (r) * z (c);其他的B =猫(1 B z (r) * z (c));结束idx = idx + 1;结束结束结束

输入参数

全部折叠

`净`- - - - - -深层神经网络为演员或评论家
的数组`层`对象|`layerGraph`对象|`DAGNetwork`对象|`SeriesNetwork`对象

深层神经网络为演员或评论家,指定为以下之一:

的数组层对象
layerGraph对象
DAGNetwork对象
SeriesNetwork对象
dlnetwork对象

深层神经网络层的列表,请参阅深度学习层的列表。更多信息为强化学习创造深层神经网络,看到的创建政策和价值功能。

`obsNames`- - - - - -观察的名字
单元阵列的特征向量

观察名称,指定为一个单元阵列的特征向量。观察的名字是您指定当您创建网络输入层的名字净。的名字obsNames必须在同一点的观测规范吗obsInfo。

例子:{“观察”}

`obsInfo`- - - - - -观测规范
`rlFiniteSetSpec`对象|`rlNumericSpec`对象|数组

观测规范,指定为一个rlFiniteSetSpec或rlNumericSpec对象或数组包含一个混合的对象。数组中每个元素定义了一个环境观测通道的特性,比如尺寸,数据类型和名称。

您可以提取obsInfo从现有的环境或代理使用getObservationInfo。你也可以手动构建规范。

`actNames`- - - - - -动作名称
单元素单元阵列,其中包含一个特征向量

动作名称,指定为一个单元素单元阵列,其中包含一个特征向量。您所指定的动作名称是网络层名当您创建净。评论家网络,这一层是第一层的输入路径。对演员来说,这是最后一层的输出路径。

例子:{'行动'}

`actInfo`- - - - - -操作规范
`rlFiniteSetSpec`对象|`rlNumericSpec`对象

动作规范,要么作为一个指定rlFiniteSetSpec(离散行动空间)rlNumericSpec(连续动作空间)对象。这个对象定义环境行动通道的属性,如尺寸,数据类型和名称。

请注意

只有一个动作频道是被允许的。

您可以提取actInfo从现有的环境或代理使用getActionInfo。你也可以手动构建规范。

`选项卡`- - - - - -值表或者Q表评论家
`rlTable`对象

值表或者Q表评论家,指定为一个rlTable对象。表的可学的参数表示的元素选项卡。

`basisFcn`- - - - - -自定义的基函数
函数处理

自定义的基函数,指定为一个函数处理一个用户定义的函数。对于一个线性基函数表示,表示的输出f = W可能会,在那里W是权重数组B是返回的列向量自定义基函数。可学的线性基函数的参数表示的元素W。

当创建:

评论家表示,观察输入,你的基函数必须有以下签名。
```
B = myBasisFunction (obsN obs1, obs2,…)
```
在这里obs1来obsN以相同的顺序观察和相同的数据类型和维度观察规格obsInfo。
观察和行动评论家表示输入,你的基函数必须有以下签名。
```
B = myBasisFunction (obs1, obs2,…, obsN act)
```
在这里obs1来obsN观察在相同的顺序和相同的数据类型和维观测规范的第一个元素吗oaInfo,行为有相同的数据类型和维度作为第二个元素的行为规范oaInfo。
一个演员表示,你的基函数必须有以下签名。
```
B = myBasisFunction (obsN obs1, obs2,…)
```
在这里,obs1来obsN以相同的顺序观察和相同的数据类型和维度观察规格obsInfo。行为规范的数据类型和维度actInfo影响的数据类型和维度f。

例子:@ (x, u) myBasisFunction (x, u)

`W0`- - - - - -初始值的线性基函数权向量
列向量|数组

初始值的线性基函数权重数组,W,指定为以下之一:

列向量,当创建一个评论家表示或演员表示连续标量行动信号
数组,当创建一个演员和一个列向量表示连续动作信号或一个离散的行动空间。

`oaInfo`- - - - - -观察和操作规范
单元阵列

观察和行动规范创建线性基函数评论家表示,指定为单元阵列{obsInfo,actInfo}。

`repOpts`- - - - - -表示选项
`rlRepresentationOptions`对象

表示选项,指定为您创建的一组选项rlRepresentationOptions。可用的选项包括优化器用于培训和学习速率。看到rlRepresentationOptions获取详细信息。

输出参数

全部折叠

`代表`——深层神经网络表示
`rlLayerRepresentation`对象

深层神经网络表示,作为一个返回rlLayerRepresentation对象。使用这种表示方法来创建一个代理进行强化学习。有关更多信息,请参见强化学习代理。

`tableCritic`——价值或Q表评论家表示
`rlTableRepresentation`对象

值或Q表评论家表示,作为一个返回rlTableRepresentation对象。使用这种表示方法来创建一个代理进行强化学习。有关更多信息,请参见强化学习代理。

`评论家`——线性基函数评论家表示
`rlLinearBasisRepresentation`对象

线性基函数评论家表示,作为和返回rlLinearBasisRepresentation对象。使用这种表示方法来创建一个代理进行强化学习。有关更多信息,请参见强化学习代理。

`演员`——线性基函数演员表示
`rlLinearBasisRepresentation`对象

线性基函数演员表示,作为和返回rlLinearBasisRepresentation对象。使用这种表示方法来创建一个代理进行强化学习。有关更多信息,请参见强化学习代理。

版本历史

介绍了R2019a

全部展开

R2020a:`rlRepresentation`不推荐

rlRepresentation不推荐。根据表示创建的类型,使用下列对象而不是之一:

rlValueRepresentation——国家价值评论家,计算基于观察的环境。
rlQValueRepresentation——政府行动价值评论家,计算基于行为和观测环境。
rlDeterministicActorRepresentation——演员确定性行为,基于观察的环境。
rlStochasticActorRepresentation——演员随机行为,基于观察的环境。

下面的表显示了一些典型使用的rlRepresentation函数来创建神经网络批评家和演员,以及如何更新你的代码和一个新对象。

基于网络的表示:不推荐	基于网络的表示:推荐
`代表= rlRepresentation (obsInfo净,“观察”,obsName)`,`净`只有观察作为输入,和一个标量输出。	`代表= rlValueRepresentation (obsInfo净,“观察”,obsName)`。使用这种语法创建一个评论家表示,不需要操作输入,如的评论家`rlACAgent`或`rlPGAgent`代理。
`代表= rlRepresentation(净、obsInfo actInfo,“观察”,obsName,‘行动’,actName)`,`净`观察和行动作为输入,和一个标量输出。	`代表= rlQValueRepresentation(净、obsInfo actInfo,“观察”,obsName,‘行动’,actName)`。对于使用这种语法创建一个政府行动值表示一个评论家,观察和行动作为输入,如的评论家`rlDQNAgent`或`rlDDPGAgent`代理。
`代表= rlRepresentation(净、obsInfo actInfo,“观察”,obsName,‘行动’,actName)`,`净`观察作为输入和动作作为输出,`actInfo`定义一个持续的行动空间。	`代表= rlDeterministicActorRepresentation(净、obsInfo actInfo,“观察”,obsName,‘行动’,actName)`。使用这种语法创建一个确定性的参与者表示连续操作空间。
`代表= rlRepresentation(净、obsInfo actInfo,“观察”,obsName,‘行动’,actName)`,`净`观察作为输入和动作作为输出,`actInfo`定义一个离散的行动空间。	`代表= rlStochasticActorRepresentation(净、obsInfo actInfo,“观察”,obsName)`。使用这种语法创建一个随机的演员表示一个离散的行动空间。

下面的表显示了一些典型使用的rlRepresentation对象基于表格来表达批评与离散观察和行动空间,以及如何更新你的代码和一个新对象。

表格表示:不推荐	推荐表格表示:
`代表= rlRepresentation(选项卡)`,`选项卡`包含一个值表包含一个列向量的数量,只要可能的观测。	`obsInfo代表= rlValueRepresentation(选项卡)`。使用这种语法创建一个评论家表示,不需要操作输入,如的评论家`rlACAgent`或`rlPGAgent`代理。
`代表= rlRepresentation(选项卡)`,`选项卡`表包含一个核反应能量尽可能多的行可能的观察和尽可能多的列的操作。	`代表= rlQValueRepresentation(选项卡,obsInfo actInfo)`。对于使用这种语法创建一个政府行动值表示一个评论家,观察和行动作为输入,如的评论家`rlDQNAgent`或`rlDDPGAgent`代理。

下面的表显示了一些典型使用的rlRepresentation函数来创建批评家和演员使用一个自定义的基函数,以及如何更新你的代码和一个新对象。在推荐的函数调用中,第一个输入参数是一个细胞包含两个元素的处理自定义基函数和初始权向量或矩阵。

自定义基础基于函数的表示:不推荐	自定义基础上基于函数的表示:推荐
`代表= rlRepresentation (basisFcn W0 obsInfo)`,输入和基函数只有观察`W0`是一个列向量。	`代表= rlValueRepresentation ({basisFcn, W0}, obsInfo)`。使用这种语法创建一个评论家表示,不需要操作输入,如的评论家`rlACAgent`或`rlPGAgent`代理。
`代表= rlRepresentation (basisFcn, W0 {obsInfo, actInfo})`的基函数具有观察和行动作为输入`W0`是一个列向量。	`代表= rlQValueRepresentation ({basisFcn, W0}, obsInfo actInfo)`。对于使用这种语法创建一个政府行动值表示一个评论家,观察和行动作为输入,如的评论家`rlDQNAgent`或`rlDDPGAgent`代理。
`代表= rlRepresentation (basisFcn W0、obsInfo actInfo)`观察,基函数作为输入输出和行动,`W0`是一个矩阵,`actInfo`定义了一个持续的行动空间。	`代表= rlDeterministicActorRepresentation ({basisFcn, W0}, obsInfo actInfo)`。使用这种语法创建一个确定性的参与者表示连续操作空间。
`代表= rlRepresentation (basisFcn W0、obsInfo actInfo)`观察,基函数作为输入输出和行动,`W0`是一个矩阵,`actInfo`定义了一个离散的行动空间。	`代表= rlStochasticActorRepresentation ({basisFcn, W0}, obsInfo actInfo)`。使用这种语法创建一个确定的演员表示一个离散的行动空间。

另请参阅

功能

getActionInfo|getObservationInfo

对象

rlValueRepresentation|rlQValueRepresentation|rlDeterministicActorRepresentation|rlStochasticActorRepresentation|rlRepresentationOptions

rlRepresentation

语法

描述

例子

创建演员和评论家表示

创建Q表表示

创建二次基函数评论家表示

输入参数

净- - - - - -深层神经网络为演员或评论家的数组层对象|layerGraph对象|DAGNetwork对象|SeriesNetwork对象

obsNames- - - - - -观察的名字单元阵列的特征向量

obsInfo- - - - - -观测规范rlFiniteSetSpec对象|rlNumericSpec对象|数组

actNames- - - - - -动作名称单元素单元阵列,其中包含一个特征向量

actInfo- - - - - -操作规范rlFiniteSetSpec对象|rlNumericSpec对象

选项卡- - - - - -值表或者Q表评论家rlTable对象

basisFcn- - - - - -自定义的基函数函数处理

W0- - - - - -初始值的线性基函数权向量列向量|数组

oaInfo- - - - - -观察和操作规范单元阵列

repOpts- - - - - -表示选项rlRepresentationOptions对象

输出参数

代表——深层神经网络表示rlLayerRepresentation对象

tableCritic——价值或Q表评论家表示rlTableRepresentation对象

评论家——线性基函数评论家表示rlLinearBasisRepresentation对象

演员——线性基函数演员表示rlLinearBasisRepresentation对象

版本历史

R2020a:rlRepresentation不推荐

另请参阅

功能

对象

主题

`净`- - - - - -深层神经网络为演员或评论家
的数组`层`对象|`layerGraph`对象|`DAGNetwork`对象|`SeriesNetwork`对象

`obsNames`- - - - - -观察的名字
单元阵列的特征向量

`obsInfo`- - - - - -观测规范
`rlFiniteSetSpec`对象|`rlNumericSpec`对象|数组

`actNames`- - - - - -动作名称
单元素单元阵列,其中包含一个特征向量

`actInfo`- - - - - -操作规范
`rlFiniteSetSpec`对象|`rlNumericSpec`对象

`选项卡`- - - - - -值表或者Q表评论家
`rlTable`对象

`basisFcn`- - - - - -自定义的基函数
函数处理

`W0`- - - - - -初始值的线性基函数权向量
列向量|数组

`oaInfo`- - - - - -观察和操作规范
单元阵列

`repOpts`- - - - - -表示选项
`rlRepresentationOptions`对象

`代表`——深层神经网络表示
`rlLayerRepresentation`对象

`tableCritic`——价值或Q表评论家表示
`rlTableRepresentation`对象

`评论家`——线性基函数评论家表示
`rlLinearBasisRepresentation`对象

`演员`——线性基函数演员表示
`rlLinearBasisRepresentation`对象

R2020a:`rlRepresentation`不推荐