getAction

从代理商或演员代表获取行动给定环境观察

在页面上崩溃

句法

Agentaction = Getaction（代理，OB）

Actoraction = Getaction（accorp，Obs）

[Actoraction，NextState] = Getaction（accorp，Obs）

描述

代理人

例子

agentAction= GetAction（代理人那obs.的）返回从给定环境观察的强化学习代理的策略中得到的动作。

演员表示

例子

actorAction= GetAction（actorRep那obs.的）返回从策略表示派生的操作actorRep鉴于环境观测obs.。

[actorAction那下持久) = getAction (actorRep那obs.的）当Actor使用经常性神经网络作为函数近似器时，返回演员表示的更新状态。

例子

全部折叠

从代理商获取行动

打开生活的脚本

创建一个环境界面，并获取其观察和操作规范。对于这种环境，负载用于离散车杆系统的预定义环境。

ent = rlpredefinedenv（“CartPole-Discrete”）;ObsInfo = GetobservationInfo（ENV）;Actinfo = GetActionInfo（Env）;

创造批评者代表。

equentpath = [featureduputlayer（4，'正常化'那'没有任何'那'姓名'那“状态”) fullyConnectedLayer(24日'姓名'那“CriticStateFC1”）剥离（'姓名'那“CriticRelu1”) fullyConnectedLayer(24日'姓名'那“CriticStateFC2”));actionPath = [featureInputLayer(1，'正常化'那'没有任何'那'姓名'那'行动') fullyConnectedLayer(24日'姓名'那“CriticActionFC1”));commonpath = [附加层（2，'姓名'那'添加'）剥离（'姓名'那“CriticCommonRelu”）全连接层（1，'姓名'那'输出'));criticNetwork = layerGraph (statePath);= addLayers(criticNetwork, actionPath);criticNetwork = addLayers(criticNetwork, commonPath);criticNetwork = connectLayers (criticNetwork,“CriticStateFC2”那“添加/三机一体”）;criticNetwork = connectLayers (criticNetwork,“CriticActionFC1”那“添加/ in2”）;

为评论家创造一个代表。

criticOpts = rlRepresentationOptions ('学习', 0.01,'gradientthreshold'1);评论家= rlQValueRepresentation (criticNetwork obsInfo actInfo,......'观察', {“状态”}，“行动”, {'行动'}, criticOpts);

指定代理选项，并使用环境和评论家创建DQN代理。

代理= rldqnagentoptions（......'unmorblebledqn'假的,......'targetupdatemethod'那“定期”那......“TargetUpdateFrequency”4......'经验bufferlength'，100000，......“DiscountFactor”，0.99，......'迷你atchsize'，256）;代理= rldqnagent（批评者，代理人）;

从代理获得单一观察的离散动作。对于此示例，请使用随机观察阵列。

ACT = GetAction（代理，{rand（4,1）}）

行动= 10.

您还可以获得一批观察的行动。例如，获得批次10个观察的动作。

actBatch = getAction(代理,{兰德(4 1 10)});大小(actBatch)

ANS =.1×21 10.

actbatch.包含批次中每个观察的一个动作，每个动作是可能的离散动作之一。

从确定性演员获取行动

打开生活的脚本

创建观察和行动信息。您还可以从环境中获取这些规范。

obsinfo = rlNumericSpec([4 1]);actinfo = rlNumericSpec([2 1]);numObs = obsinfo.Dimension (1);numAct = actinfo.Dimension (1);

为参与者创建一个循环深度神经网络。

网= [featureInputLayer (4'正常化'那'没有任何'那'姓名'那“状态”) fullyConnectedLayer (10'姓名'那'fc1'）剥离（'姓名'那“relu1”）全同时连接（20，'姓名'那“CriticStateFC2”) fullyConnectedLayer (numAct'姓名'那'行动') tanhLayer ('姓名'那'tanh1'));

为网络创建一个确定的参与者表示。

actorOptions = rlRepresentationOptions ('学习'，1e-3，'gradientthreshold'1);Actor = RLDETerminyActorRepresentation（Net，Obsinfo，Actinfo，......'观察', {“状态”}，“行动”, {'tanh1'}）;

从该actor获取动作，以获得20个观察的随机批次。

ACT = GETACT（演员，{rand（4,1,10）}）

行动=1 x1单元阵列{2 x1x10单一}

行为包含批次中所有10个观察的两个计算操作。

输入参数

全部折叠

`代理人`-加固学习代理
`rlqagent.`|`rlsarsaagent.`|`rlDQNAgent`|`rlPGAgent`|`rlddpgagent.`|`rltd3agent.`|`rlacagent.`|`rlppoagent.`

钢筋学习代理，指定为以下对象之一：

`actorRep`-演员表示
`RLDETerminyActorRepresentation`目的|`rlStochasticActorRepresentation`目的

演员表示，指定为一个RLDETerminyActorRepresentation或rlStochasticActorRepresentation对象。

`obs.`-环境观察
单元阵列

环境观测，指定为具有多个元素的单元阵列，因为存在观察输入通道。每个元素obs.包含单个观察输入通道的观察数组。

每个元素的尺寸obs.是M._O.——- - - - - -L._B.——- - - - - -L._S.，在哪里：

M._O.对应于相关观察输入通道的尺寸。
L._B.是批量大小。指定单个观察，设置L._B.= 1.要指定一批观察，请指定L._B.> 1.如果valuerep.或qvaluerep.有多个观测输入通道，那么L._B.对所有元素必须相同obs.。
L._S.指定经常性神经网络的序列长度。如果valuerep.或qvaluerep.那时不使用经常性神经网络L._S.= 1.如果valuerep.或qvaluerep.有多个观测输入通道，那么L._S.对所有元素必须相同obs.。