GetValue.

Env = Rlpredefinedenv（'cartpole  - 离散'）;ObsInfo = GetobservationInfo（ENV）;Actinfo = GetActionInfo（Env）;numobs = obsinfo.dimension（1）;numdiscreteact = numel（Actinfo.Elements）;

为评论家创造一个深度神经网络。

批评= [featureInputLayer（4，'正常化'那'没有任何'那'名称'那'状态'）全连接列（8，'名称'那'fc'）剥离（'名称'那'relu'）全康连接层（1，'名称'那'输出'）];

为批评创建一个值函数表示对象。

QuandOptions = rlrepresentationOptions（'学习'，1e-2，'gradientthreshold'，1）;评论家= rlvalueerepresentation（批判性，Obsinfo，......'观察'那'状态'，批评）;

获取随机单个观察的值函数估计。使用具有与观察规范相同尺寸的观察阵列。

val = getValue（评论家，{rand（4,1）}）

val =单身的-0.0899

您还可以获得一批观察的价值函数估计。例如，获得批量的20个观察的值函数。

Batchval = GetValue（评论家，{rand（4,1,20）}）;大小（批量）

ans =.1×21 20.

valbatch.包含批次中每个观察的一个值函数估计。

获得多输出Q值函数估计

打开直播脚本

创建环境并获取观察和行动信息。

Env = Rlpredefinedenv（'cartpole  - 离散'）;ObsInfo = GetobservationInfo（ENV）;Actinfo = GetActionInfo（Env）;numobs = obsinfo.dimension（1）;numdiscreteact = numel（Actinfo.Elements）;

为多输出Q值函数表示创建一个深度神经网络。

批评= [featureInputLayer（4，'正常化'那'没有任何'那'名称'那'状态'）全连接列（50，'名称'那'批评福尔福克'）剥离（'名称'那'rictrelu1'）全连接列（20，'名称'那'批评福尔2'）剥离（'名称'那'transrelu2'）全连接列（NumDiscreteAct，'名称'那'输出'）];

使用经常性神经网络创建评论家的代表。

QuandOptions = rlrepresentationOptions（'学习'，1e-3，'gradientthreshold'，1）;评论家= rlqvalueerepresentation（批评，undernfo，Actinfo，......'观察'那'状态'，批评）;

使用随机观察获得每个可能的离散动作的值函数估计。

val = getValue（评论家，{rand（4,1）}）

val =2x1单列向量0.0139 -0.1851

瓦包含两个值函数估计，一个用于每个可能的离散动作。

您还可以获得一批观察的价值函数估计。例如，获得10个观察批次的价值函数估计。

Batchval = getValue（评论家，{rand（4,1,10）}）;大小（批量）

ans =.1×22 10.

批歌包含批次中每个观察的两个值函数估计值。

获取单输出Q值函数估算

打开直播脚本

为两个观察输入通道创建观察规范。

ObsInfo = [rlnumericspec（[8 3]），rlnumericspec（[4 1]）];

创建动作规范。

Actinfo = rlnumericspec（[2 1]）;

为评论家创造一个深度神经网络。该网络具有三个输入通道（两个用于观察和动作一个）。

develationpath1 = [imageInputLayer（[8 3 1]，'正常化'那'没有任何'那'名称'那'endate1'）全连接层（10，'名称'那'fc1'）附加层（3，'名称'那'添加'）剥离（'名称'那'relu1'）全连接层（10，'名称'那'fc4'）剥离（'名称'那'relu2'）全康连接层（1，'名称'那'fc5'）];deviemationPath2 = [ImageInputLayer（[4 1 1]，'正常化'那'没有任何'那'名称'那'state2'）全连接层（10，'名称'那'fc2'）];ActionPath = [ImageInputLayer（[2 1 1]，'正常化'那'没有任何'那'名称'那'行动'）;全康统计（10，'名称'那'fc3'）];net = layergraph（观察到3月1）;net = addlayers（net，观察结果2）;net = addlayers（net，ActionPath）;net = connectlayers（net，'fc2'那'添加/ in2'）;net = connectlayers（net，'fc3'那'添加/ IN3'）;

使用此网络创建批评批读表示。

c = rlqvalueerpresentation（net，obsinfo，Actinfo，......'观察'，{'endate1'那'state2'}，'行动'，{'行动'}）;

为每个通道创建随机观察批次尺寸64组。

batchobs_ch1 = rand（8,3,64）;batchobs_ch2 = rand（4,1,64）;

创建随机动作批量大小64集。

Batchact = Rand（2,1,64,1）;

获取批量观察和行动的状态动作价值函数估计。

qvalue = getValue（c，{batchobs_ch1，batchobs_ch2}，{batchact}）;

输入参数

全部收缩

`valuerep.`-价值函数表示
`rlvalueerepresentation`目的

值函数表示，指定为rlvalueerepresentation目的。

`qvaluerep.`-Q值函数表示
`rlqvalueerepresentation`目的

Q值函数表示，指定为rlqvalueerepresentation目的。

`obs.`-环境观察
细胞阵列

环境观测，指定为具有多个元素的单元阵列，因为存在观察输入通道。每个元素obs.包含单个观察输入通道的观察数组。

每个元素的尺寸obs.是m_O.-经过-L._B.-经过-L._S.，在哪里：

m_O.对应于相关观察输入通道的尺寸。
L._B.是批量大小。指定单个观察，设置L._B.= 1.要指定一批观察，请指定L._B.> 1.如果valuerep.或者qvaluerep.有多个观察输入通道，然后L._B.对所有元素必须相同obs.。
L._S.指定经常性神经网络的序列长度。如果valuerep.或者qvaluerep.那时不使用经常性神经网络L._S.= 1.如果valuerep.或者qvaluerep.有多个观察输入通道，然后L._S.对所有元素必须相同obs.。

L._B.和L._S.两者都必须相同行为和obs.。

`行为`-行动
单元素单元数组

操作，指定为单元素单元数组，包含一个动作值数组。

该阵列的尺寸是m_一种-经过-L._B.-经过-L._S.，在哪里：

m_一种对应于相关动作规范的尺寸。
L._B.是批量大小。指定单个观察，设置L._B.= 1.要指定一批观察，请指定L._B.> 1。
L._S.指定经常性神经网络的序列长度。如果valuerep.或者qvaluerep.那时不使用经常性神经网络L._S.= 1。

L._B.和L._S.两者都必须相同行为和obs.。

输出参数

全部收缩

`价值`- 估计值函数
大批

估计值函数，用尺寸作为数组返回N-经过-L._B.-经过-L._S.，在哪里：

N是批评网络的产出数量。
- 对于状态值表示（valuerep.），N= 1。
- 用于单输出状态 - 动作值表示（qvaluerep.），N= 1。
- 对于多输出状态 - 动作值表示（qvaluerep.），N是离散行动的数量。
L._B.是批量大小。
L._S.是经常性神经网络的序列长度。

`状态`- 代表状态
细胞阵列

反复性神经网络的表示状态，作为单元阵列返回。如果valuerep.或者qvaluerep.那时不使用经常性神经网络状态是一个空的单元格阵列。

您可以将表示状态设置为状态使用setstate.功能。例如：

valuerep = setstate（valuerep，州）;

也可以看看

努力|getmaxqvalue.

话题

在R2020A中介绍

GetValue.

句法

描述

例子

获取状态值函数估计

获得多输出Q值函数估计

获取单输出Q值函数估算

输入参数

`valuerep.`-价值函数表示
`rlvalueerepresentation`目的

`qvaluerep.`-Q值函数表示
`rlqvalueerepresentation`目的

`obs.`-环境观察
细胞阵列

`行为`-行动
单元素单元数组

输出参数

`价值`- 估计值函数
大批

`状态`- 代表状态
细胞阵列

也可以看看

话题

强化学习工具箱文档

金宝app

用Matlab和Simulink加强学习金宝app

GetValue.

句法

描述

例子

获取状态值函数估计

获得多输出Q值函数估计

获取单输出Q值函数估算

输入参数

valuerep.-价值函数表示rlvalueerepresentation目的

qvaluerep.-Q值函数表示rlqvalueerepresentation目的

obs.-环境观察细胞阵列

行为-行动单元素单元数组

输出参数

价值- 估计值函数大批

状态- 代表状态细胞阵列

也可以看看

话题

强化学习工具箱文档

金宝app

用Matlab和Simulink加强学习金宝app

`valuerep.`-价值函数表示
`rlvalueerepresentation`目的

`qvaluerep.`-Q值函数表示
`rlqvalueerepresentation`目的

`obs.`-环境观察
细胞阵列

`行为`-行动
单元素单元数组

`价值`- 估计值函数
大批

`状态`- 代表状态
细胞阵列