主要内容

rlPPOAgent

近端政策优化强化学习代理

描述

近端政策优化(PPO)是一个模范自由,在网上,在政策、策略梯度强化学习方法。该算法交替采样数据通过环境之间交互和优化剪使用随机梯度下降法替代目标函数。可以是离散或连续的行动空间。

PPO代理的更多信息,请参阅近端政策优化代理。更多信息在不同类型的强化学习代理,看看强化学习代理

创建

描述

从观察和行动规范创建代理

例子

代理= rlPPOAgent (observationInfo,actionInfo)创建一个近端政策优化(PPO)代理一个环境与给定的观察和操作规范,使用默认初始化选择。代理使用默认的演员兼评论家深层神经网络由观测规范observationInfo和操作规范actionInfo。的ObservationInfoActionInfo的属性代理是设置为observationInfoactionInfo分别输入参数。

例子

代理= rlPPOAgent (observationInfo,actionInfo,initOpts)创建一个PPO代理一个环境与给定的观察和操作规范。代理使用默认使用选项中指定的网络配置initOpts对象。Actor-critic代理不支持递归神经网络。金宝app初始化选项的更多信息,请参阅rlAgentInitializationOptions

从演员兼评论家创建代理

例子

代理= rlPPOAgent (演员,评论家)创建一个PPO代理指定的演员和评论家,对代理使用默认选项。

指定代理选项

例子

代理= rlPPOAgent (___,agentOptions)创建一个PPO代理并设置AgentOptions财产agentOptions输入参数。使用这个语法的任何输入参数后以前的语法。

输入参数

全部展开

代理初始化选项,指定为一个rlAgentInitializationOptions对象。

演员实现政策,指定为一个rlDiscreteCategoricalActorrlContinuousGaussianActor函数近似者对象。创建演员接近者的更多信息,请参阅创建政策和价值功能

评论家估计折现长期回报,作为一个指定rlValueFunction对象。创建评论家合拢器的更多信息,请参阅创建政策和价值功能

您的批评可以使用递归神经网络函数的估计值。在这种情况下,你的演员也必须使用递归神经网络。例如,看到的创建PPO与复发性神经网络代理

属性

全部展开

观测规范,指定为强化学习规范对象或规范对象数组定义属性,如尺寸,数据类型和名称的观察信号。

如果您创建代理通过指定一个演员和评论家的价值ObservationInfo匹配指定的值在演员和批评的对象。

您可以提取observationInfo从现有的环境或代理使用getObservationInfo。您还可以手动构建规范使用rlFiniteSetSpecrlNumericSpec

动作规范,指定为强化学习规范对象定义属性,如尺寸,数据类型和名称的行动信号。

一个离散的行动空间,您必须指定actionInfo作为一个rlFiniteSetSpec对象。

一个持续的行动空间,您必须指定actionInfo作为一个rlNumericSpec对象。

如果您创建代理通过指定一个演员和评论家的价值ActionInfo匹配指定的值在演员和批评的对象。

您可以提取actionInfo从现有的环境或代理使用getActionInfo。您还可以手动构建规范使用rlFiniteSetSpecrlNumericSpec

代理选项,指定为一个rlPPOAgentOptions对象。

选择使用探索政策选择行为时,指定为以下之一的逻辑值。

  • 真正的——代理探索政策选择行为时使用基地。

  • ——使用基本代理贪婪策略在选择行动。

样本代理的时候,作为一个积极的标量或指定1。设置这个参数1支持基于事件的模拟。的价值SampleTime匹配指定的值AgentOptions

在一个模型金宝app®环境中,RL代理块中执行每一个指定的代理SampleTime秒的仿真时间。如果SampleTime1块继承了样本时间从母公司子系统。

在MATLAB®环境中,代理执行每一次进步的环境。在这种情况下,SampleTime之间的时间间隔连续元素返回的输出的经验吗sim卡火车。如果SampleTime1之间的时间间隔连续元素返回的输出经验反映了事件触发代理执行的时机。

对象的功能

火车 强化学习培训代理在指定的环境中
sim卡 模拟训练强化学习代理在指定的环境中
getAction 从代理或演员获得行动环境观测
getActor 从强化学习得到演员经纪人
setActor 集演员强化学习代理
getCritic 从强化学习获得评论家的代理
setCritic 评论家强化学习代理
generatePolicyFunction 创建函数评估训练策略的强化学习代理

例子

全部折叠

创造一个环境,一个离散的行动空间,并获得其观察和操作规范。对于这个示例,负载在示例中使用的环境使用深度网络设计师创建代理和培训使用图像的观察。这个环境有两个观察:50-by-50灰度图像和一个标量(摆的角速度)。行动是一个标量和五个可能的元素(一个力矩的-2,1,0,1,或2纳米应用于摆动杆)。

%负载预定义的环境env = rlPredefinedEnv (“SimplePendulumWithImage-Discrete”);

从环境中获得观察和操作规范。

obsInfo = getObservationInfo (env);actInfo = getActionInfo (env);

代理创建函数初始化演员和评论家网络随机。可以通过修复确保再现性的种子随机发生器。为此,取消注释以下行。

% rng (0)

创建PPO代理从环境中观察和操作规范。

代理= rlPPOAgent (obsInfo actInfo);

检查您的代理,使用getAction返回操作从一个随机的观察。

getAction(代理,{兰特(obsInfo (1) .Dimension),兰德(obsInfo (2) .Dimension)})
ans =1 x1单元阵列{[2]}

您现在可以测试和培训环境内的代理。

创造一个环境,一个连续的操作空间和获得其观察和操作规范。对于这个示例,负载在示例中使用的环境火车DDPG代理摇摆起来,平衡摆与图像观察。这个环境有两个观察:50-by-50灰度图像和一个标量(摆的角速度)。行动是一个标量代表一个力矩范围从-不断22Nm。

%负载预定义的环境env = rlPredefinedEnv (“SimplePendulumWithImage-Continuous”);%获得观察和操作规范obsInfo = getObservationInfo (env);actInfo = getActionInfo (env);

创建一个代理对象初始化选项,指定每个隐藏在网络必须完全连接层128年神经元(而不是默认的号码,256年)。

initOpts = rlAgentInitializationOptions (“NumHiddenUnit”,128);

代理创建函数初始化演员和评论家网络随机。可以通过修复确保再现性的种子随机发生器。为此,取消注释以下行。

% rng (0)

创建一个PPO actor-critic代理从环境中观察和操作规范。

代理= rlPPOAgent (obsInfo actInfo initOpts);

提取深层神经网络代理的演员和评论家。

actorNet = getModel (getActor(代理));criticNet = getModel (getCritic(代理));

评论家的显示层网络,验证每个隐藏完全连接层有128个神经元

criticNet.Layers
ans x1 = 11层与层:数组1的concat串联连接2输入沿着维度1 2的relu_body ReLU ReLU 3 fc_body完全连接128完全连接层4的body_output ReLU ReLU 5 input_1的图像输入50 x50x1图片6 conv_1卷积64 3 x3x1旋转步[1]和填充[0 0 0 0]7‘relu_input_1 ReLU ReLU 8“fc_1”完全连接128完全连接层9“input_2”功能输入1功能10“fc_2”完全连接128完全连接层11“输出”完全连接1完全连接层

情节演员和评论家网络

情节(layerGraph (actorNet))

图包含一个坐标轴对象。坐标轴graphplot类型的对象包含一个对象。

情节(layerGraph (criticNet))

图包含一个坐标轴对象。坐标轴graphplot类型的对象包含一个对象。

检查您的代理,使用getAction返回操作从一个随机的观察。

getAction(代理,{兰特(obsInfo (1) .Dimension),兰德(obsInfo (2) .Dimension)})
ans =1 x1单元阵列{[0.9228]}

您现在可以测试和培训环境内的代理。

创建一个环境接口,获取其观察和操作规范。

env = rlPredefinedEnv (“CartPole-Discrete”);obsInfo = getObservationInfo (env);actInfo = getActionInfo (env);

创建一个深层神经网络作为近似模型内的评论家。PPO代理,评论家估计价值函数,因此必须采取观察信号作为输入,并返回一个标量值。

criticNetwork = [featureInputLayer (prod (obsInfo.Dimension),“归一化”,“没有”,“名字”,“状态”)fullyConnectedLayer (1,“名字”,“CriticFC”));

创建一个评论家使用criticNetwork。PPO代理使用一个rlValueFunction对象实现评论家。

评论家= rlValueFunction (criticNetwork obsInfo);

设置一些评论家培训选项。

criticOpts = rlOptimizerOptions (“LearnRate”,5 e - 3,“GradientThreshold”1);

创建一个深层神经网络作为近似模型内的演员。PPO代理,演员执行随机策略,实现离散行动空间的离散分类的演员。在这种情况下,网络必须采取观察信号作为输入,并返回一个概率为每一个行动。因此,输出层必须尽可能多的元素的数量可能的行动。

actorNetwork = [featureInputLayer (prod (obsInfo.Dimension),“归一化”,“没有”,“名字”,“状态”)fullyConnectedLayer(元素个数(actInfo.Dimension),“名字”,“行动”));

创建一个演员使用actorNetwork。PPO代理使用一个rlDiscreteCategoricalActor对象实现演员离散行动空间。

演员= rlDiscreteCategoricalActor (actorNetwork obsInfo actInfo);

设置一些演员培训选项。

actorOpts = rlOptimizerOptions (“LearnRate”,8 e - 3,“GradientThreshold”1);

指定代理选项,创建PPO代理使用演员,评论家,和代理的选择对象。

agentOpts = rlPPOAgentOptions (“ExperienceHorizon”,1024,“DiscountFactor”,0.95,“CriticOptimizerOptions”criticOpts,“ActorOptimizerOptions”,actorOpts);代理= rlPPOAgent(演员、评论家、agentOpts)
代理= rlPPOAgent属性:AgentOptions: [1 x1 rl.option。rlPPOAgentOptions] UseExplorationPolicy: 1 ObservationInfo: [1x1 rl.util.rlNumericSpec] ActionInfo: [1x1 rl.util.rlFiniteSetSpec] SampleTime: 1

检查您的代理,使用getAction返回操作从一个随机的观察。

getAction(代理,{兰德(obsInfo.Dimension)})
ans =1 x1单元阵列{[-10]}

您现在可以测试和培训代理与环境。

创造一个环境,一个持续的行动空间,获得其观察和操作规范。对于这个示例,加载双积分器连续行动空间环境中使用的例子火车DDPG剂来控制双积分器系统。观察从环境中包含位置和速度是一个向量的质量。行动是一个标量代表一种力量,不断应用于质量,范围从-22牛顿。

env = rlPredefinedEnv (“DoubleIntegrator-Continuous”);obsInfo = getObservationInfo (env)
obsInfo = rlNumericSpec属性:LowerLimit:无穷UpperLimit:正的名字:“状态”的描述:“x, dx”维度:[2 1]数据类型:“替身”
actInfo = getActionInfo (env)
actInfo = rlNumericSpec属性:LowerLimit:无穷UpperLimit:正的名字:“力”描述:[0 x0字符串]维度:[1]数据类型:“替身”

自行动必须包含在一个有限的范围内,设置相应的行动信号的上、下限,所以你可以很容易地获取他们在构建演员网络。

actInfo.LowerLimit = 2;actInfo.UpperLimit = 2;

演员和评论家网络随机初始化。可以通过修复确保再现性的种子随机发生器。

rng (0)

创建一个深层神经网络作为近似模型内的评论家。PPO代理,评论家估计价值函数,因此必须采取观察信号作为输入,并返回一个标量值。

criticNet = [featureInputLayer (prod (obsInfo.Dimension),“归一化”,“没有”,“名字”,“状态”)fullyConnectedLayer (10“名字”,“fc_in”)reluLayer (“名字”,“relu”)fullyConnectedLayer (1,“名字”,“出”));

创建一个评论家使用criticNet。PPO代理使用一个rlValueFunction对象实现评论家。

评论家= rlValueFunction (criticNet obsInfo);

设置一些评论家培训选项。

criticOpts = rlOptimizerOptions (“LearnRate”,8 e - 3,“GradientThreshold”1);

创建一个深层神经网络作为近似模型内的演员。PPO代理,演员执行随机策略,实现连续操作空间的连续高斯的演员。在这种情况下,网络必须采取观察信号作为输入,并返回一个平均值和标准偏差值为每一个行动。因此它必须有两个输出层(一个用于平均值标准差的其他值),各有尽可能多的元素行为空间的维数。

注意,必须负的值和均值标准差必须在范围之内的所有行动。因此输出层返回必须softplus或标准差ReLU层,执行nonnegativity,而输出层返回平均值必须扩展层,按比例输出范围的平均值。

%的输入路径层inPath = [featureInputLayer (prod (obsInfo.Dimension),“归一化”,“没有”,“名字”,“状态”)fullyConnectedLayer (10“名字”,“ip_fc”)reluLayer (“名字”,“ip_relu”)fullyConnectedLayer (1,“名字”,“ip_out”));%路径层平均值meanPath = [fullyConnectedLayer(15日“名字”,“mp_fc1”)reluLayer (“名字”,“mp_relu”)fullyConnectedLayer (1,“名字”,“mp_fc2”);tanhLayer (“名字”,的双曲正切);scalingLayer (“名字”,“mp_out”,“规模”actInfo.UpperLimit)];%范围:(2 n, n)%路径层标准差sdevPath = [fullyConnectedLayer(15日“名字”,“vp_fc1”)reluLayer (“名字”,“vp_relu”)fullyConnectedLayer (1,“名字”,“vp_fc2”);softplusLayer (“名字”,“vp_out”));%范围:(0,+正)%添加层layerGraph网络对象actorNet = layerGraph (inPath);actorNet = addLayers (actorNet meanPath);actorNet = addLayers (actorNet sdevPath);%连接层actorNet = connectLayers (actorNet,“ip_out”,“mp_fc1 /”);actorNet = connectLayers (actorNet,“ip_out”,“vp_fc1 /”);%的阴谋网络情节(actorNet)

图包含一个坐标轴对象。坐标轴graphplot类型的对象包含一个对象。

创建一个演员使用actorNet。PPO代理使用一个rlContinuousGaussianActor对象实现参与者连续操作空间。

演员= rlContinuousGaussianActor (actorNet obsInfo actInfo,“ActionMeanOutputNames”,“mp_out”,“ActionStandardDeviationOutputNames”,“vp_out”,“ObservationInputNames”,“状态”);

设置一些演员培训选项。

actorOpts = rlOptimizerOptions (“LearnRate”,8 e - 3,“GradientThreshold”,1)
actorOpts = rlOptimizerOptions属性:LearnRate: 0.0080 GradientThreshold: 1 GradientThresholdMethod:“l2norm”L2RegularizationFactor: 1.0000 e-04算法:“亚当”OptimizerParameters: [1 x1 rl.option.OptimizerParameters]

指定代理选项,创建PPO代理使用演员,评论家和代理的选择。

agentOpts = rlPPOAgentOptions (“ExperienceHorizon”,1024,“DiscountFactor”,0.95);代理= rlPPOAgent(演员、评论家、agentOpts)
代理= rlPPOAgent属性:AgentOptions: [1 x1 rl.option。rlPPOAgentOptions] UseExplorationPolicy: 1 ObservationInfo: [1x1 rl.util.rlNumericSpec] ActionInfo: [1x1 rl.util.rlNumericSpec] SampleTime: 1

检查您的代理,使用getAction返回操作从一个随机的观察。

getAction(代理,{兰德(2,1)})
ans =1 x1单元阵列{[0.6668]}

您现在可以测试和培训环境内的代理。

对于这个示例加载用于预定义的环境火车DQN代理Cart-Pole平衡系统的例子。

env = rlPredefinedEnv (“CartPole-Discrete”);

获得观察和操作信息。这个环境中有一个连续四维观测空间(两车的位置和速度和极)和离散维操作空间组成应用程序的两个可能的部队,-10 n或10 n。

obsInfo = getObservationInfo (env);actInfo = getActionInfo (env);

创建一个周期性的深层神经网络的评论家。PPO代理,评论家估计价值函数,因此必须采取观察信号作为输入,并返回一个标量值。创建一个递归神经网络,使用sequenceInputLayer作为输入层,包括一个lstmLayer的另一个网络层。

criticNetwork = [sequenceInputLayer (prod (obsInfo.Dimension),“归一化”,“没有”,“名字”,“myobs”)fullyConnectedLayer (8,“名字”,“俱乐部”)reluLayer (“名字”,“relu”)lstmLayer (8,“OutputMode”,“序列”,“名字”,“lstm”)fullyConnectedLayer (1,“名字”,“输出”));

创建一个评论家使用criticNetwork。PPO代理使用一个rlValueFunction对象实现评论家。

评论家= rlValueFunction (criticNetwork obsInfo);

设置一些培训选项的评论家。

criticOptions = rlOptimizerOptions (“LearnRate”1飞行,“GradientThreshold”1);

创建一个神经网络作为近似模型内的演员。评论家有复发性网络以来,演员必须有复发性网络。PPO代理,演员执行随机策略,实现离散行动空间的离散分类的演员。在这种情况下,网络必须采取观察信号作为输入,并返回一个概率为每一个行动。因此,输出层必须尽可能多的元素的数量可能的行动。

actorNetwork = [sequenceInputLayer (prod (obsInfo.Dimension),“归一化”,“没有”,“名字”,“myobs”)fullyConnectedLayer (8,“名字”,“俱乐部”)reluLayer (“名字”,“relu”)lstmLayer (8,“OutputMode”,“序列”,“名字”,“lstm”)fullyConnectedLayer(元素个数(actInfo.Elements),“名字”,“输出”)softmaxLayer (“名字”,“actionProb”));

创建一个演员使用actorNetwork。PPO代理使用一个rlDiscreteCategoricalActor对象实现演员离散行动空间。

演员= rlDiscreteCategoricalActor (actorNetwork obsInfo actInfo);

设置一些演员培训选项。

actorOptions = rlOptimizerOptions (“LearnRate”1 e - 3,“GradientThreshold”1);

创建代理的选择对象。

agentOptions = rlPPOAgentOptions (“AdvantageEstimateMethod”,“finite-horizon”,“ClipFactor”,0.1,“CriticOptimizerOptions”criticOptions,“ActorOptimizerOptions”,actorOptions);

当使用递归神经网络,MiniBatchSize属性是学习轨迹的长度。

agentOptions.MiniBatchSize
ans = 128

使用演员和评论家,创建代理以及代理的选择对象。

代理= rlPPOAgent(演员、评论家、agentOptions);

检查你的代理使用getAction返回从一个随机观察行动。

getAction(代理,兰德(obsInfo.Dimension))
ans =1 x1单元阵列{[10]}

提示

  • 连续操作空间,这个代理不强制约束,规范设定的动作。在这种情况下,您必须执行行动空间中约束环境。

  • 而调整学习速率的演员PPO代理网络是必要的,没有必要为TRPO代理。

版本历史

介绍了R2019b