rlDDPGAgent

深决定性策略梯度强化学习代理

扩展所有的页面

描述

深决定性策略梯度(DDPG)算法是一种actor-critic,模范自由,在网上,off-policy强化学习方法计算最优政策,最大化的长期回报。操作空间只能是连续的。

有关更多信息,请参见深决定性策略梯度代理。更多信息在不同类型的强化学习代理,看看强化学习代理。

创建

语法

代理= rlDDPGAgent (observationInfo actionInfo)

代理= rlDDPGAgent (observationInfo actionInfo initOpts)

代理= rlDDPGAgent(演员、评论家、agentOptions)

代理= rlDDPGAgent (___agentOptions)

描述

从观察和行动规范创建代理

例子

代理= rlDDPGAgent (observationInfo,actionInfo)创建一个深决定性策略梯度代理一个环境与给定的观察和操作规范,使用默认初始化选择。代理使用默认的演员兼评论家深层神经网络由观测规范observationInfo和操作规范actionInfo。的ObservationInfo和ActionInfo的属性代理是设置为observationInfo和actionInfo分别输入参数。

例子

代理= rlDDPGAgent (observationInfo,actionInfo,initOpts)创建一个深决定性策略梯度代理一个环境与给定的观察和操作规范。代理使用默认使用选项中指定的网络配置initOpts对象。初始化选项的更多信息,请参阅rlAgentInitializationOptions。

从演员兼评论家创建代理

例子

代理= rlDDPGAgent (演员,评论家,agentOptions)创建一个DDPG代理指定的演员和评论家,使用默认DDPG代理选项。

指定代理选项

代理= rlDDPGAgent (___,agentOptions)创建一个DDPG代理并设置AgentOptions财产agentOptions输入参数。使用这个语法的任何输入参数后以前的语法。

输入参数

全部展开

`initOpts`- - - - - -代理初始化选项
`rlAgentInitializationOptions`对象

代理初始化选项,指定为一个rlAgentInitializationOptions对象。

`演员`- - - - - -演员
`rlContinuousDeterministicActor`对象

演员,指定为一个rlContinuousDeterministicActor。创建角色的更多信息,请参阅创建政策和价值功能。

`评论家`- - - - - -评论家
`rlQValueFunction`对象

评论家,指定为一个rlQValueFunction对象。创建批评者的更多信息,请参阅创建政策和价值功能。

属性

全部展开

`ObservationInfo`- - - - - -观测规范
规范对象|规范对象的数组

观测规范,指定为强化学习规范对象或规范对象数组定义属性,如尺寸,数据类型和名称的观察信号。

如果您创建代理通过指定一个演员和评论家的价值ObservationInfo匹配指定的值在演员和批评的对象。

您可以提取observationInfo从现有的环境或代理使用getObservationInfo。您还可以手动构建规范使用rlFiniteSetSpec或rlNumericSpec。

`ActionInfo`- - - - - -操作规范
规范对象

动作规范,指定为强化学习规范对象定义属性,如尺寸,数据类型和名称的行动信号。

自从DDPG代理运营在一个持续的行动空间,您必须指定actionInfo作为一个rlNumericSpec对象。

如果您创建代理通过指定一个演员和评论家的价值ActionInfo匹配指定的值在演员和批评的对象。

您可以提取actionInfo从现有的环境或代理使用getActionInfo。您还可以手动构建规范使用rlNumericSpec。

`AgentOptions`- - - - - -剂的选择
`rlDDPGAgentOptions`对象

代理选项,指定为一个rlDDPGAgentOptions对象。

如果您创建了一个DDPG代理与默认的演员和评论家使用递归神经网络,默认值的AgentOptions.SequenceLength是32。

`ExperienceBuffer`- - - - - -经验的缓冲
`rlReplayMemory`对象

经验缓冲区,指定为一个rlReplayMemory对象。在训练代理商店每个经验(年代,一个,R,年代,D)在一个缓冲区。在这里:

年代是当前环境的观察。
一个由受托人采取的动作。
R奖励采取行动吗一个。
年代是下一个观测后采取行动一个。
D完成信号后采取行动吗一个。

`UseExplorationPolicy`- - - - - -选择使用探索政策
`假`(默认)|`真正的`

选择使用探索政策选择行为时,指定为以下之一的逻辑值。

真正的——代理探索政策选择行为时使用基地。
假——使用基本代理贪婪策略在选择行动。

`SampleTime`- - - - - -样本的代理
积极的标量|`1`

样本代理的时候,作为一个积极的标量或指定1。设置这个参数1支持基于事件的模拟。的价值SampleTime匹配指定的值AgentOptions。

在一个模型金宝app^®环境中,RL代理块中执行每一个指定的代理SampleTime秒的仿真时间。如果SampleTime是1块继承了样本时间从母公司子系统。

在MATLAB^®环境中,代理执行每一次进步的环境。在这种情况下,SampleTime之间的时间间隔连续元素返回的输出的经验吗sim卡或火车。如果SampleTime是1之间的时间间隔连续元素返回的输出经验反映了事件触发代理执行的时机。

对象的功能

`火车`	强化学习培训代理在指定的环境中
`sim卡`	模拟训练强化学习代理在指定的环境中
`getAction`	从代理或演员获得行动环境观测
`getActor`	从强化学习得到演员经纪人
`setActor`	集演员强化学习代理
`getCritic`	从强化学习获得评论家的代理
`setCritic`	评论家强化学习代理
`generatePolicyFunction`	创建函数评估训练策略的强化学习代理

例子

全部折叠

创建DDPG代理从观察和操作规范

打开生活的脚本

创造一个环境,一个持续的行动空间,获得其观察和操作规范。对于这个示例,负载在示例中使用的环境火车DDPG剂来控制双积分器系统。观察从环境中包含位置和速度是一个向量的质量。行动是一个标量代表一种力量,不断应用于质量,范围从-2来2牛顿。

%负载预定义的环境env = rlPredefinedEnv (“DoubleIntegrator-Continuous”);%获得观察和操作规范obsInfo = getObservationInfo (env);actInfo = getActionInfo (env);

代理创建函数初始化演员和评论家网络随机。可以通过修复确保再现性的种子随机发生器。

rng (0)

创建一个策略梯度代理从环境中观察和操作规范。

代理= rlDDPGAgent (obsInfo actInfo);

检查您的代理,使用getAction返回操作从一个随机的观察。

getAction(代理,{兰特(obsInfo (1) .Dimension)})

ans =1 x1单元阵列{[0.0182]}

您现在可以测试和培训环境内的代理。

使用初始化选项创建DDPG代理

打开生活的脚本

创造一个环境,一个连续的操作空间和获得其观察和操作规范。对于这个示例,负载在示例中使用的环境火车DDPG代理摇摆起来,平衡摆与图像观察。这个环境有两个观察:50-by-50灰度图像和一个标量(摆的角速度)。行动是一个标量代表一个力矩范围从-不断2来2Nm。

%负载预定义的环境env = rlPredefinedEnv (“SimplePendulumWithImage-Continuous”);%获得观察和操作规范obsInfo = getObservationInfo (env);actInfo = getActionInfo (env);

创建一个代理对象初始化选项,指定每个隐藏在网络必须完全连接层128年神经元(而不是默认的号码,256年)。

initOpts = rlAgentInitializationOptions (“NumHiddenUnit”,128);

代理创建函数初始化演员和评论家网络随机。可以通过修复确保再现性的种子随机发生器。为此,取消注释以下行。

% rng (0)

创建DDPG代理从环境中观察和操作规范。

代理= rlDDPGAgent (obsInfo actInfo initOpts);

提取深层神经网络代理的演员和评论家。

actorNet = getModel (getActor(代理));criticNet = getModel (getCritic(代理));

评论家的显示层网络,验证每个隐藏完全连接层有128个神经元

criticNet.Layers

ans x1 = 13层与层:数组1的concat串联连接3输入沿着维度1 2的relu_body ReLU ReLU 3 fc_body完全连接128完全连接层4的body_output ReLU ReLU 5 input_1的图像输入50 x50x1图片6 conv_1卷积64 3 x3x1旋转步[1]和填充[0 0 0 0]7‘relu_input_1 ReLU ReLU 8“fc_1”完全连接128完全连接层9“input_2”功能输入1功能10“fc_2”完全连接128完全连接层11“input_3”功能输入1功能12 fc_3完全连接128完全连接层13“输出”完全连接1完全连接层

情节演员和评论家网络

情节(layerGraph (actorNet))

图包含一个坐标轴对象。坐标轴graphplot类型的对象包含一个对象。

情节(layerGraph (criticNet))

图包含一个坐标轴对象。坐标轴graphplot类型的对象包含一个对象。

检查您的代理,使用getAction返回操作从一个随机的观察。

getAction(代理,{兰特(obsInfo (1) .Dimension),兰德(obsInfo (2) .Dimension)})

ans =1 x1单元阵列{[-0.0364]}

您现在可以测试和培训环境内的代理。

创建DDPG代理从演员和评论家

打开生活的脚本

创造一个环境,一个连续的操作空间和获得其观察和操作规范。对于这个示例,负载在示例中使用的环境火车DDPG剂来控制双积分器系统。观察从环境中包含位置和速度是一个向量的质量。代表一个力的行动是一个标量范围从-不断2来2牛顿。

env = rlPredefinedEnv (“DoubleIntegrator-Continuous”);obsInfo = getObservationInfo (env);actInfo = getActionInfo (env);

演员和评论家网络随机初始化。可以通过修复确保再现性的种子随机发生器。

rng (0)

创建一个深层神经网络作为近似模型内的评论家。DDPG代理,评论家估计核反应能量函数,因此必须采取观察和行动信号作为输入并返回一个标量值。

%定义路径statePath = featureInputLayer (prod (obsInfo.Dimension),…“归一化”,“没有”,“名字”,“状态”);actionPath = featureInputLayer(元素个数(actInfo),…“归一化”,“没有”,“名字”,“行动”);commonPath = [concatenationLayer (1、2、“名字”,“concat”)quadraticLayer (“名字”,“二次”)fullyConnectedLayer (1,…“名字”,“StateValue”,…“BiasLearnRateFactor”0,“偏见”,0)];%添加layerGraph网络路径criticNetwork = layerGraph (statePath);criticNetwork = addLayers (criticNetwork actionPath);criticNetwork = addLayers (criticNetwork commonPath);criticNetwork = connectLayers (criticNetwork,…“状态”,“concat /三机一体”);criticNetwork = connectLayers (criticNetwork,…“行动”,“concat / in2”);

创建一个评论家使用criticNetwork,指定的名称输入层。DDPG代理使用一个rlQValueFunction对象实现评论家。

评论家= rlQValueFunction (criticNetwork obsInfo actInfo,…“ObservationInputNames”,{“状态”},…“ActionInputNames”,{“行动”});

设置一些评论家培训选项。

criticOpts = rlOptimizerOptions (…“LearnRate”,5 e - 3,“GradientThreshold”1);

创建一个神经网络作为近似模型内的演员。DDPG代理,演员执行一个确定的政策,这是由一个连续实现确定的演员。在这种情况下,网络必须采取观察信号作为输入,并返回一个行动。因此,输出层必须尽可能多的元素的数量可能的行动。

%创建一个网络作为基本演员接近者actorNetwork = [featureInputLayer (prod (obsInfo.Dimension),…“归一化”,“没有”,“名字”,“状态”)fullyConnectedLayer(元素个数(actInfo),“名字”,“行动”,…“BiasLearnRateFactor”0,“偏见”,0)];

创建一个演员使用actorNetwork。DDPG代理使用一个rlContinuousDeterministicActor对象实现的演员。

演员= rlContinuousDeterministicActor (actorNetwork,…obsInfo actInfo,…“ObservationInputNames”,{“状态”});

设置一些演员培训选项。

actorOpts = rlOptimizerOptions (…“LearnRate”1的军医,“GradientThreshold”1);

指定代理选项,创建DDPG代理使用演员和评论家。

agentOpts = rlDDPGAgentOptions (…“SampleTime”env.Ts,…“TargetSmoothFactor”1 e - 3,…“ExperienceBufferLength”1 e6,…“DiscountFactor”,0.99,…“MiniBatchSize”32岁的…“CriticOptimizerOptions”criticOpts,…“ActorOptimizerOptions”,actorOpts);代理= rlDDPGAgent(演员、评论家、agentOpts);

检查您的代理,使用getAction返回操作从一个随机的观察。

getAction(代理,{兰德(2,1)})

ans =1 x1单元阵列{[-0.4719]}

您现在可以测试和培训环境内的代理。

创建DDPG代理与复发性神经网络

打开生活的脚本

对于这个示例,负载在示例中使用的环境火车DDPG剂来控制双积分器系统。观察从环境中包含位置和速度是一个向量的质量。代表一个力的行动是一个标量范围从-不断2来2牛顿。

env = rlPredefinedEnv (“DoubleIntegrator-Continuous”);

观察和行动规范信息。

obsInfo = getObservationInfo (env);actInfo = getActionInfo (env);

创建一个深层神经网络作为近似模型内的评论家。DDPG代理,评论家估计核反应能量函数,因此必须采取观察和行动信号作为输入并返回一个标量值。要创建一个递归神经网络,使用sequenceInputLayer作为输入层,包括一个lstmLayer的另一个网络层。

%定义路径statePath = sequenceInputLayer (prod (obsInfo.Dimension)…,“归一化”,“没有”,“名字”,“myobs”);actionPath = sequenceInputLayer(元素个数(actInfo),…“归一化”,“没有”,“名字”,“myact”);commonPath = [concatenationLayer (1、2、“名字”,“concat”)reluLayer (“名字”,“relu”)lstmLayer (8,“OutputMode”,“序列”,“名字”,“lstm”)fullyConnectedLayer (1,“名字”,“StateValue”,…“BiasLearnRateFactor”0,“偏见”,0)];%添加layergraph网络路径criticNetwork = layerGraph (statePath);criticNetwork = addLayers (criticNetwork actionPath);criticNetwork = addLayers (criticNetwork commonPath);%连接路径criticNetwork = connectLayers (criticNetwork,“myobs”,“concat /三机一体”);criticNetwork = connectLayers (criticNetwork,“myact”,“concat / in2”);

创建一个评论家使用criticNetwork,指定的名称输入层。DDPG代理使用一个rlQValueFunction对象实现评论家。

评论家= rlQValueFunction (criticNetwork obsInfo actInfo,…“ObservationInputNames”,{“myobs”},“ActionInputNames”,{“myact”});

设置一些评论家培训选项。

criticOpts = rlOptimizerOptions (…“LearnRate”,5 e - 3,“GradientThreshold”1);

创建一个神经网络作为近似模型内的演员。DDPG代理,演员执行一个确定的政策,这是由一个连续实现确定的演员。在这种情况下,网络必须采取观察信号作为输入,并返回一个行动。因此,输出层必须尽可能多的元素的数量可能的行动。评论家有复发性网络以来,演员必须有复发性网络。

actorNetwork = [sequenceInputLayer (prod (obsInfo.Dimension),…“归一化”,“没有”,“名字”,“myobs”)lstmLayer (8,“OutputMode”,“序列”,“名字”,“lstm”)fullyConnectedLayer(元素个数(actInfo),“名字”,“myact”,…“BiasLearnRateFactor”0,“偏见”,0)];

创建一个演员使用actorNetwork。DDPG代理使用一个rlContinuousDeterministicActor对象实现的演员。

演员= rlContinuousDeterministicActor (actorNetwork,…obsInfo actInfo,…“ObservationInputNames”,{“myobs”});

设置一些演员培训选项。

actorOpts = rlOptimizerOptions (…“LearnRate”1的军医,“GradientThreshold”1);

指定代理选项,创建DDPG代理使用演员和评论家。与复发性神经网络使用DDPG代理,您必须指定一个SequenceLength大于1。

agentOpts = rlDDPGAgentOptions (…“SampleTime”env.Ts,…“TargetSmoothFactor”1 e - 3,…“ExperienceBufferLength”1 e6,…“DiscountFactor”,0.99,…“SequenceLength”,20岁,…“MiniBatchSize”32岁的…“CriticOptimizerOptions”criticOpts,…“ActorOptimizerOptions”,actorOpts);代理= rlDDPGAgent(演员、评论家、agentOpts);

检查您的代理,使用getAction返回操作从一个随机的观察。

getAction(代理,{兰德(obsInfo.Dimension)})

ans =1 x1单元阵列{[-0.0250]}

您现在可以测试和培训环境内的代理。

版本历史

介绍了R2019a

另请参阅

rlAgentInitializationOptions|rlDDPGAgentOptions|rlQValueFunction|rlContinuousDeterministicActor|深层网络设计师

rlDDPGAgent

描述

创建

语法

描述

从观察和行动规范创建代理

从演员兼评论家创建代理

指定代理选项

输入参数

initOpts- - - - - -代理初始化选项rlAgentInitializationOptions对象

演员- - - - - -演员rlContinuousDeterministicActor对象

评论家- - - - - -评论家rlQValueFunction对象

属性

ObservationInfo- - - - - -观测规范规范对象|规范对象的数组

ActionInfo- - - - - -操作规范规范对象

AgentOptions- - - - - -剂的选择rlDDPGAgentOptions对象

ExperienceBuffer- - - - - -经验的缓冲rlReplayMemory对象

UseExplorationPolicy- - - - - -选择使用探索政策假(默认)|真正的

SampleTime- - - - - -样本的代理积极的标量|1

对象的功能

例子

创建DDPG代理从观察和操作规范

使用初始化选项创建DDPG代理

创建DDPG代理从演员和评论家

创建DDPG代理与复发性神经网络

版本历史

另请参阅

主题

`initOpts`- - - - - -代理初始化选项
`rlAgentInitializationOptions`对象

`演员`- - - - - -演员
`rlContinuousDeterministicActor`对象

`评论家`- - - - - -评论家
`rlQValueFunction`对象

`ObservationInfo`- - - - - -观测规范
规范对象|规范对象的数组

`ActionInfo`- - - - - -操作规范
规范对象

`AgentOptions`- - - - - -剂的选择
`rlDDPGAgentOptions`对象

`ExperienceBuffer`- - - - - -经验的缓冲
`rlReplayMemory`对象

`UseExplorationPolicy`- - - - - -选择使用探索政策
`假`(默认)|`真正的`

`SampleTime`- - - - - -样本的代理
积极的标量|`1`