rlPGAgent

政策梯度强化学习代理

扩展所有的页面

描述

策略梯度(PG)算法是一个模范自由,在网上,在政策强化学习方法。PG代理是一个基于策略的强化学习代理使用加强算法直接计算最优政策,最大化的长期回报。可以是离散或连续的行动空间。

更多信息在PG代理和增强算法,明白了政策梯度代理。更多信息在不同类型的强化学习代理,看看强化学习代理。

创建

语法

代理= rlPGAgent (observationInfo actionInfo)

代理= rlPGAgent (observationInfo actionInfo initOpts)

代理= rlPGAgent(演员)

代理= rlPGAgent(演员,评论家)

代理= rlPGAgent (___agentOptions)

描述

从观察和行动规范创建代理

例子

代理= rlPGAgent (observationInfo,actionInfo)创建一个策略梯度代理一个环境与给定的观察和操作规范,使用默认初始化选择。代理的演员和评论家表示使用默认深层神经网络由观测规范observationInfo和操作规范actionInfo。

例子

代理= rlPGAgent (observationInfo,actionInfo,initOpts)创建一个策略梯度代理一个环境与给定的观察和操作规范。代理使用默认的网络中,每个隐藏完全连接层单位中指定的数量initOpts对象。政策梯度代理不支持递归神经网络。金宝app初始化选项的更多信息,请参阅rlAgentInitializationOptions。

从演员和评论家表示创建代理

代理= rlPGAgent (演员)创建一个PG代理指定的演员网络。默认情况下,UseBaseline代理的属性假在这种情况下。

代理= rlPGAgent (演员,评论家)创建一个PG代理指定的演员和评论家网络。默认情况下,UseBaseline选择是真正的在这种情况下。

指定代理选项

例子

代理= rlPGAgent (___,agentOptions)创建一个PG代理和设置AgentOptions财产agentOptions输入参数。使用这个语法的任何输入参数后以前的语法。

输入参数

全部展开

`observationInfo`- - - - - -观测规范
规范对象|规范对象的数组

观测规范,指定为强化学习规范对象或规范对象数组定义属性,如尺寸,数据类型和名称的观察信号。

您可以提取observationInfo从现有的环境或代理使用getObservationInfo。您还可以手动构建规范使用rlFiniteSetSpec或rlNumericSpec。

`actionInfo`- - - - - -操作规范
规范对象

动作规范,指定为强化学习规范对象定义属性,如尺寸,数据类型和名称的行动信号。

一个离散的行动空间,您必须指定actionInfo作为一个rlFiniteSetSpec对象。

一个持续的行动空间,您必须指定actionInfo作为一个rlNumericSpec对象。

您可以提取actionInfo从现有的环境或代理使用getActionInfo。您还可以手动构建规范使用rlFiniteSetSpec或rlNumericSpec。

`initOpts`- - - - - -代理初始化选项
`rlAgentInitializationOptions`对象

代理初始化选项,指定为一个rlAgentInitializationOptions对象。政策梯度代理不支持递归神经网络。金宝app

`演员`- - - - - -演员网络表示
`rlStochasticActorRepresentation`对象

演员网络表示,作为一个指定rlStochasticActorRepresentation。创建演员表示更多的信息,请参阅创建政策和价值函数表示。

`评论家`- - - - - -评论家表示网络
`rlValueRepresentation`对象

评论家网络表示,作为一个指定rlValueRepresentation对象。创建评论家表示更多的信息,请参阅创建政策和价值函数表示。

属性

全部展开

`AgentOptions`- - - - - -剂的选择
`rlPGAgentOptions`对象

代理选项,指定为一个rlPGAgentOptions对象。

对象的功能

`火车`	强化学习培训代理在指定的环境中
`sim卡`	模拟训练强化学习代理在指定的环境中
`getAction`	从代理或演员获得行动表示给定环境的观察
`getActor`	从强化学习得到演员表示代理
`setActor`	强化学习代理组演员表示
`getCritic`	从强化学习代理获得评论家表示
`setCritic`	将强化学习的评论家表示代理
`generatePolicyFunction`	创建函数评估训练策略的强化学习代理

例子

全部折叠

创建离散策略梯度代理从观察和操作规范

打开生活的脚本

创造一个环境,一个离散的行动空间,并获得其观察和操作规范。对于这个示例,负载在示例中使用的环境使用深度网络设计师创建代理和培训使用图像的观察。这个环境有两个观察:50-by-50灰度图像和一个标量(摆的角速度)。行动是一个标量和五个可能的元素(一个力矩的-2,1,0,1,或2纳米应用于钢管)。

%负载预定义的环境env = rlPredefinedEnv (“SimplePendulumWithImage-Discrete”);%获得观察和操作规范obsInfo = getObservationInfo (env);actInfo = getActionInfo (env);

代理创建函数初始化演员和评论家网络随机。可以通过修复确保再现性的种子随机发生器。为此,取消注释以下行。

% rng (0)

创建一个策略梯度代理从环境中观察和操作规范。

代理= rlPGAgent (obsInfo actInfo);

检查您的代理,使用getAction返回操作从一个随机的观察。

getAction(代理,{兰特(obsInfo (1) .Dimension),兰德(obsInfo (2) .Dimension)})

ans =1 x1单元阵列{[2]}

您现在可以测试和培训环境内的代理。

使用初始化选项创建连续梯度代理政策

打开生活的脚本

创造一个环境,一个连续的操作空间和获得其观察和操作规范。对于这个示例,负载在示例中使用的环境火车DDPG代理摇摆起来,平衡摆与图像观察。这个环境有两个观察:50-by-50灰度图像和一个标量(摆的角速度)。行动是一个标量代表一个力矩范围从-不断2来2Nm。

%负载预定义的环境env = rlPredefinedEnv (“SimplePendulumWithImage-Continuous”);%获得观察和操作规范obsInfo = getObservationInfo (env);actInfo = getActionInfo (env);

创建一个代理对象初始化选项,指定每个隐藏在网络必须完全连接层128年神经元(而不是默认的号码,256年)。政策梯度代理不支持复发性网络,所以设置金宝appUseRNN选项真正的创建代理时生成一个错误。

initOpts = rlAgentInitializationOptions (“NumHiddenUnit”,128);

代理创建函数初始化演员和评论家网络随机。可以通过修复确保再现性的种子随机发生器。为此,取消注释以下行。

% rng (0)

创建一个策略梯度代理从环境中观察和操作规范。

代理= rlPGAgent (obsInfo actInfo initOpts);

减少1 e - 3评论家学习速率。

评论家= getCritic(代理);critic.Options。LearnRate = 1 e - 3;代理= setCritic(代理、批评);

提取深层神经网络代理的演员和评论家。

actorNet = getModel (getActor(代理));criticNet = getModel (getCritic(代理));

评论家的显示层网络,验证每个隐藏完全连接层有128个神经元

criticNet.Layers

ans = 11 x1层阵列层:1“input_1”图像输入50 x50x1图片2 conv_1卷积64 3 x3x1旋转步[1]和填充[0 0 0 0]3‘relu_input_1 ReLU ReLU 4 fc_1完全连接128完全连接层5“input_2”功能输入1功能6 fc_2完全连接128完全连接层7的concat串联连接2输入沿着维度1 8 ' relu_body ReLU ReLU 9“fc_body”完全连接128完全连接层10“body_output”ReLU ReLU 11“输出”完全连接1完全连接层

情节演员和评论家网络

情节(layerGraph (actorNet))

图包含一个坐标轴对象。坐标轴graphplot类型的对象包含一个对象。

情节(layerGraph (criticNet))

图包含一个坐标轴对象。坐标轴graphplot类型的对象包含一个对象。

检查您的代理,使用getAction返回操作从一个随机的观察。

getAction(代理,{兰特(obsInfo (1) .Dimension),兰德(obsInfo (2) .Dimension)})

ans =1 x1单元阵列{[0.9228]}

您现在可以测试和培训环境内的代理。

创建一个离散PG代理从演员和基线评论家

打开生活的脚本

创造一个环境,一个离散的行动空间,并获得其观察和操作规范。对于这个示例,负载在示例中使用的环境火车PG代理与基线控制双积分器系统。观察从环境中包含位置和速度是一个向量的质量。行动是一个标量代表一种力量,应用于质量,有三个可能的值(-2,0,或2牛顿)。

%负载预定义的环境env = rlPredefinedEnv (“DoubleIntegrator-Discrete”);%得到观察和规范信息obsInfo = getObservationInfo (env);actInfo = getActionInfo (env);

创建一个评论家表示作为一个基准。

%创建一个网络作为潜在的评论家的估计值baselineNetwork = [imageInputLayer ([obsInfo.Dimension (1) 1 (1),“归一化”,“没有”,“名字”,“状态”)fullyConnectedLayer (8,“名字”,“BaselineFC”)reluLayer (“名字”,“CriticRelu1”)fullyConnectedLayer (1,“名字”,“BaselineFC2”,“BiasLearnRateFactor”,0)];%设置一些选项评论家baselineOpts = rlRepresentationOptions (“LearnRate”,5 e - 3,“GradientThreshold”1);%创建基于网络评论家估计值基线= rlValueRepresentation (baselineNetwork obsInfo,“观察”,{“状态”},baselineOpts);

创建一个演员表示。

%创建一个网络作为基本演员接近者actorNetwork = [imageInputLayer ([obsInfo.Dimension (1) 1 (1),“归一化”,“没有”,“名字”,“状态”)fullyConnectedLayer(元素个数(actInfo.Elements),“名字”,“行动”,“BiasLearnRateFactor”,0)];%设置一些选项的演员actorOpts = rlRepresentationOptions (“LearnRate”,5 e - 3,“GradientThreshold”1);%创建行为人基于网络的估计值演员= rlStochasticActorRepresentation (actorNetwork obsInfo actInfo,…“观察”,{“状态”},actorOpts);

指定代理选项,使用环境,创建一个PG代理演员,和评论家。

agentOpts = rlPGAgentOptions (…“UseBaseline”,真的,…“DiscountFactor”,0.99);代理= rlPGAgent(演员、基线、agentOpts)

代理= rlPGAgent属性:AgentOptions: [1 x1 rl.option.rlPGAgentOptions]

检查你的代理,用getAction返回从一个随机观察行动。

getAction(代理,{兰德(2,1)})

ans =1 x1单元阵列{[2]}

您现在可以测试和培训环境内的代理。

创建一个连续的PG代理从演员和基线评论家

打开生活的脚本

创造一个环境,一个持续的行动空间,获得其观察和操作规范。对于这个示例,加载双积分器连续行动空间环境中使用的例子火车DDPG剂来控制双积分器系统。

%负载预定义的环境env = rlPredefinedEnv (“DoubleIntegrator-Continuous”);%得到观测规范信息obsInfo = getObservationInfo (env)

obsInfo = rlNumericSpec属性:LowerLimit:无穷UpperLimit:正的名字:“状态”的描述:“x, dx”维度:[2 1]数据类型:“替身”

%得到行动规范信息actInfo = getActionInfo (env)

actInfo = rlNumericSpec属性:LowerLimit:无穷UpperLimit:正的名字:“力”描述:[0 x0字符串]维度:[1]数据类型:“替身”

在这个例子中,这个动作是一个标量范围从-输入代表力量2来2牛顿,所以它是一个好主意来设置相应的行动信号的上、下限。必须这样做当演员有一个非线性的网络表示输出层比需要扩展相应产生一个输出在所需的范围。

%确定行动的空间是有限的上限和下限actInfo.LowerLimit = 2;actInfo.UpperLimit = 2;

创建一个评论家表示作为一个基准。政策梯度代理使用rlValueRepresentation基线。连续观察空间,您可以使用深神经网络或一个自定义的基础上表示。对于这个示例,创建一个深层神经网络作为底层估计值。

%创建一个网络作为潜在的评论家的估计值baselineNetwork = [imageInputLayer ([obsInfo。尺寸1],“归一化”,“没有”,“名字”,“状态”)fullyConnectedLayer (8,“名字”,“BaselineFC1”)reluLayer (“名字”,“Relu1”)fullyConnectedLayer (1,“名字”,“BaselineFC2”,“BiasLearnRateFactor”,0)];%设置一些培训选项的评论家baselineOpts = rlRepresentationOptions (“LearnRate”,5 e - 3,“GradientThreshold”1);%创建基于网络评论家估计值基线= rlValueRepresentation (baselineNetwork obsInfo,“观察”,{“状态”},baselineOpts);

政策梯度代理使用rlStochasticActorRepresentation。连续动作空间随机演员,你只能使用神经网络作为潜在的估计值。

观察输入(这里称为myobs)必须接受一个二维向量,作为中指定obsInfo。输出(这里称为myact)也必须是一个二维向量(维度中指定数量的两倍actInfo)。输出向量代表的元素,在序列,所有手段和每一个行动的标准差(在本例中只有一个值和一个标准差)。

标准偏差的事实必须是非负数而平均值必须属于输出范围意味着网络必须有两个独立的路径。第一个路径是平均值,任何输出非线性必须按比例缩小的,这样它可以产生输出在输出范围。第二个路径的差异,您必须使用一个执行non-negativity softplus或relu层。

%的输入路径层(2×1输入,1×1输出)inPath = [imageInputLayer ([obsInfo。尺寸1],“归一化”,“没有”,“名字”,“状态”)fullyConnectedLayer (10“名字”,“ip_fc”)% 10 1的输出reluLayer (“名字”,“ip_relu”)%非线性fullyConnectedLayer (1,“名字”,“ip_out”));% 1×1的输出%路径层平均值(1×1输入和1×1输出)%使用scalingLayer规模范围meanPath = [fullyConnectedLayer(15日“名字”,“mp_fc1”)% 15×1的输出reluLayer (“名字”,“mp_relu”)%非线性fullyConnectedLayer (1,“名字”,“mp_fc2”);% 1×1的输出tanhLayer (“名字”,的双曲正切);%输出范围:(1)scalingLayer (“名字”,“mp_out”,“规模”actInfo.UpperLimit)];%输出范围:(2 n, n)%路径层标准偏差(1×1的输入和输出)%使用softplus层非负sdevPath = [fullyConnectedLayer(15日“名字”,“vp_fc1”)% 15×1的输出reluLayer (“名字”,“vp_relu”)%非线性fullyConnectedLayer (1,“名字”,“vp_fc2”);% 1×1的输出softplusLayer (“名字”,“vp_out”));%输出范围:(0,+正)% conctatenate两个输入沿着维度(# 3),形成一个由1(2)输出层支出= concatenationLayer (3 2“名字”,“mean&sdev”);%添加层layerGraph网络对象actorNet = layerGraph (inPath);actorNet = addLayers (actorNet meanPath);actorNet = addLayers (actorNet sdevPath);actorNet = addLayers (actorNet,支出);%连接层:中值路径输出必须首先连接到输入的连接层actorNet = connectLayers (actorNet,“ip_out”,“mp_fc1 /”);%连接inPath meanPath输入的输出actorNet = connectLayers (actorNet,“ip_out”,“vp_fc1 /”);%连接inPath variancePath输入的输出actorNet = connectLayers (actorNet,“mp_out”,“mean&sdev /三机一体”);%连接meanPath mean&sdev输入# 1的输出actorNet = connectLayers (actorNet,“vp_out”,“mean&sdev / in2”);%连接sdevPath mean&sdev输入# 2的输出%的阴谋网络情节(actorNet)

图包含一个坐标轴对象。坐标轴graphplot类型的对象包含一个对象。

为演员和指定一些选项创建随机演员使用深层神经网络表示actorNet。

%设置一些选项的演员actorOpts = rlRepresentationOptions (“LearnRate”,5 e - 3,“GradientThreshold”1);%创建行为人基于网络的估计值演员= rlStochasticActorRepresentation (actorNet obsInfo actInfo,…“观察”,{“状态”},actorOpts);

指定代理选项,创建一个PG代理使用演员,基线和代理的选择。

agentOpts = rlPGAgentOptions (…“UseBaseline”,真的,…“DiscountFactor”,0.99);代理= rlPGAgent(演员、基线、agentOpts)

代理= rlPGAgent属性:AgentOptions: [1 x1 rl.option.rlPGAgentOptions]

检查你的代理,用getAction返回从一个随机观察行动。

getAction(代理,{兰德(2,1)})

ans =1 x1单元阵列{[0.0347]}

您现在可以测试和培训环境内的代理。

创建一个离散PG与复发性神经网络代理

打开生活的脚本

对于这个示例,负载在示例中使用的环境火车PG代理与基线控制双积分器系统。观察从环境中包含位置和速度是一个向量的质量。行动是一个标量代表一种力量,应用于质量,有三个可能的值(2 0 2牛顿)。

env = rlPredefinedEnv (“DoubleIntegrator-Discrete”);

观察和规范信息。

obsInfo = getObservationInfo (env);actInfo = getActionInfo (env);

创建一个评论家表示作为一个基准。创建一个批评家的递归神经网络,使用sequenceInputLayer作为输入层,包括一个lstmLayer的另一个网络层。

baselineNetwork = [sequenceInputLayer obsInfo.Dimension (1),“归一化”,“没有”,“名字”,“myobs”)fullyConnectedLayer (8,“名字”,“BaselineFC”)lstmLayer (8,“OutputMode”,“序列”,“名字”,“lstm”)reluLayer (“名字”,“CriticRelu1”)fullyConnectedLayer (1,“名字”,“BaselineFC2”,“BiasLearnRateFactor”,0)];

设置一些选项评论家。

baselineOpts = rlRepresentationOptions (“LearnRate”,5 e - 3,“GradientThreshold”1);

创建基于网络评论家估计值。

基线= rlValueRepresentation (baselineNetwork obsInfo,“观察”,{“myobs”},baselineOpts);

创建一个演员表示。评论家有复发性网络以来,演员必须有复发性网络。

定义一个递归神经网络的演员。

actorNetwork = [sequenceInputLayer obsInfo.Dimension (1),“归一化”,“没有”,“名字”,“myobs”)lstmLayer (8,“OutputMode”,“序列”,“名字”,“lstm”)fullyConnectedLayer(元素个数(actInfo.Elements),“名字”,“行动”,“BiasLearnRateFactor”,0)];

集演员的选择和创建的演员。

actorOpts = rlRepresentationOptions (“LearnRate”,5 e - 3,“GradientThreshold”1);演员= rlStochasticActorRepresentation (actorNetwork obsInfo actInfo,…“观察”,{“myobs”},actorOpts);

指定代理选项,使用环境,创建一个PG代理演员,和评论家。

agentOpts = rlPGAgentOptions (…“UseBaseline”,真的,…“DiscountFactor”,0.99);代理= rlPGAgent(演员、基线、agentOpts);

PG代理与递归神经网络的训练序列长度是整个事件。

检查你的代理,用getAction返回从一个随机观察行动。

getAction(代理,{obsInfo.Dimension})

ans =1×1单元阵列{[0]}

您现在可以测试和培训环境内的代理。

提示

连续操作空间,rlPGAgent代理不执行规定的约束行为规范,所以您必须执行行动空间中约束环境。

另请参阅

rlAgentInitializationOptions|rlPGAgentOptions|rlStochasticActorRepresentation|rlValueRepresentation|深层网络设计师

主题

介绍了R2019a

rlPGAgent

描述

创建

语法

描述

从观察和行动规范创建代理

从演员和评论家表示创建代理

指定代理选项

输入参数

`observationInfo`- - - - - -观测规范
规范对象|规范对象的数组

`actionInfo`- - - - - -操作规范
规范对象

`initOpts`- - - - - -代理初始化选项
`rlAgentInitializationOptions`对象

`演员`- - - - - -演员网络表示
`rlStochasticActorRepresentation`对象

`评论家`- - - - - -评论家表示网络
`rlValueRepresentation`对象

属性

`AgentOptions`- - - - - -剂的选择
`rlPGAgentOptions`对象

对象的功能

例子

创建离散策略梯度代理从观察和操作规范

使用初始化选项创建连续梯度代理政策

创建一个离散PG代理从演员和基线评论家

创建一个连续的PG代理从演员和基线评论家

创建一个离散PG与复发性神经网络代理

提示

另请参阅

主题

强化学习工具箱文档

金宝app

强化学习与MATLAB仿真软件金宝app

rlPGAgent

描述

创建

语法

描述

从观察和行动规范创建代理

从演员和评论家表示创建代理

指定代理选项

输入参数

observationInfo- - - - - -观测规范规范对象|规范对象的数组

actionInfo- - - - - -操作规范规范对象

initOpts- - - - - -代理初始化选项rlAgentInitializationOptions对象

演员- - - - - -演员网络表示rlStochasticActorRepresentation对象

评论家- - - - - -评论家表示网络rlValueRepresentation对象

属性

AgentOptions- - - - - -剂的选择rlPGAgentOptions对象

对象的功能

例子

创建离散策略梯度代理从观察和操作规范

使用初始化选项创建连续梯度代理政策

创建一个离散PG代理从演员和基线评论家

创建一个连续的PG代理从演员和基线评论家

创建一个离散PG与复发性神经网络代理

提示

另请参阅

主题

强化学习工具箱文档

金宝app

强化学习与MATLAB仿真软件金宝app

`observationInfo`- - - - - -观测规范
规范对象|规范对象的数组

`actionInfo`- - - - - -操作规范
规范对象

`initOpts`- - - - - -代理初始化选项
`rlAgentInitializationOptions`对象

`演员`- - - - - -演员网络表示
`rlStochasticActorRepresentation`对象

`评论家`- - - - - -评论家表示网络
`rlValueRepresentation`对象

`AgentOptions`- - - - - -剂的选择
`rlPGAgentOptions`对象