主要内容

rlDQNAgent

深Q-network强化学习代理

描述

深Q-network (DQN)算法是一个模范自由,在网上,off-policy强化学习方法。DQN代理是一个基于价值观的强化学习代理列车评论家估计返回或未来的回报。DQN是q学习的变体,它操作只在离散的行动空间。

有关更多信息,深Q-Network代理。更多信息在不同类型的强化学习代理,看看强化学习代理

创建

描述

从观察和行动规范创建代理

例子

代理= rlDQNAgent (observationInfo,actionInfo)创建一个DQN代理一个环境与给定的观察和操作规范,使用默认初始化选择。评论家在代理使用一个默认的向量(即多输出)核反应能量深层神经网络由观测规范observationInfo和操作规范actionInfo。的ObservationInfoActionInfo的属性代理是设置为observationInfoactionInfo分别输入参数。

例子

代理= rlDQNAgent (observationInfo,actionInfo,initOpts)创建一个DQN代理一个环境与给定的观察和操作规范。代理使用一个默认网络配置使用选项中指定initOpts对象。初始化选项的更多信息,请参阅rlAgentInitializationOptions

从评论家创建代理

代理= rlDQNAgent (评论家)创建一个DQN代理指定的评论家网络使用默认选项设置DQN代理。

指定代理选项

例子

代理= rlDQNAgent (评论家,agentOptions)创建一个DQN代理指定的评论家网络和设置AgentOptions财产agentOptions输入参数。使用这个语法后的任何输入参数在前面的语法。

输入参数

全部展开

代理初始化选项,指定为一个rlAgentInitializationOptions对象。

评论家,指定为一个rlQValueFunction或者通常更有效率rlVectorQValueFunction对象。创建批评者的更多信息,请参阅创建政策和价值功能

您的批评可以使用递归神经网络函数的估计值。然而,只有rlVectorQValueFunction金宝app支持递归神经网络。例如,看到的创建DQN代理与递归神经网络

属性

全部展开

观测规范,指定为强化学习规范对象或规范对象数组定义属性,如尺寸,数据类型和名称的观察信号。

如果您创建代理对象,通过指定一个评论家的价值ObservationInfo匹配指定的值评论家

您可以提取observationInfo从现有的环境或代理使用getObservationInfo。您还可以手动构建规范使用rlFiniteSetSpecrlNumericSpec

动作规范,指定为强化学习规范对象定义属性,如尺寸,数据类型和名称的行动信号。

自从DDPG代理运行在一个离散的行动空间,您必须指定actionInfo作为一个rlFiniteSetSpec对象。

如果您创建代理对象,通过指定一个评论家的价值ActionInfo匹配指定的值评论家

您可以提取actionInfo从现有的环境或代理使用getActionInfo。您还可以手动构建规范使用rlFiniteSetSpec

代理选项,指定为一个rlDQNAgentOptions对象。

如果您创建了一个DQN代理和一个默认的评论家使用递归神经网络,默认值的AgentOptions.SequenceLength32

经验缓冲区,指定为一个rlReplayMemory对象。在训练代理商店每个经验(年代,一个,R,年代,D)在一个缓冲区。在这里:

  • 年代是当前环境的观察。

  • 一个由受托人采取的动作。

  • R奖励采取行动吗一个

  • 年代是下一个观测后采取行动一个

  • D完成信号后采取行动吗一个

选择使用探索政策选择行为时,指定为以下之一的逻辑值。

  • 真正的——代理探索政策选择行为时使用基地。

  • ——使用基本代理贪婪策略在选择行动。

样本代理的时候,作为一个积极的标量或指定1。设置这个参数1支持基于事件的模拟。的价值SampleTime匹配指定的值AgentOptions

在一个模型金宝app®环境中,RL代理块中执行每一个指定的代理SampleTime秒的仿真时间。如果SampleTime1块继承了样本时间从母公司子系统。

在MATLAB®环境中,代理执行每一次进步的环境。在这种情况下,SampleTime之间的时间间隔连续元素返回的输出的经验吗sim卡火车。如果SampleTime1之间的时间间隔连续元素返回的输出经验反映了事件触发代理执行的时机。

对象的功能

火车 强化学习培训代理在指定的环境中
sim卡 模拟训练强化学习代理在指定的环境中
getAction 从代理或演员获得行动环境观测
getActor 从强化学习得到演员经纪人
setActor 集演员强化学习代理
getCritic 从强化学习获得评论家的代理
setCritic 评论家强化学习代理
generatePolicyFunction 创建函数评估训练策略的强化学习代理

例子

全部折叠

创造一个环境,一个离散的行动空间,并获得其观察和操作规范。对于这个示例,负载在示例中使用的环境使用深度网络设计师创建代理和培训使用图像的观察。这个环境有两个观察:50-by-50灰度图像和一个标量(摆的角速度)。行动是一个标量和五个可能的元素(一个力矩的-2,1,0,1,或2纳米应用于摆动杆)。

%负载预定义的环境env = rlPredefinedEnv (“SimplePendulumWithImage-Discrete”);%获得观察和操作规范obsInfo = getObservationInfo (env);actInfo = getActionInfo (env);

代理创建函数初始化演员和评论家网络随机。可以通过修复确保再现性的种子随机发生器。

rng (0)

创建一个深Q-network代理从环境中观察和操作规范。

代理= rlDQNAgent (obsInfo actInfo);

检查您的代理,使用getAction返回操作从一个随机的观察。

getAction(代理,{兰特(obsInfo (1) .Dimension),兰德(obsInfo (2) .Dimension)})
ans =1 x1单元阵列{[1]}

您现在可以测试和培训环境内的代理。

创造一个环境,一个离散的行动空间,并获得其观察和操作规范。对于这个示例,负载在示例中使用的环境使用深度网络设计师创建代理和培训使用图像的观察。这个环境有两个观察:50-by-50灰度图像和一个标量(摆的角速度)。行动是一个标量和五个可能的元素(一个力矩的-2,1,0,1,或2纳米应用于摆动杆)。

%负载预定义的环境env = rlPredefinedEnv (“SimplePendulumWithImage-Discrete”);%获得观察和操作规范obsInfo = getObservationInfo (env);actInfo = getActionInfo (env);

创建一个代理对象初始化选项,指定每个隐藏在网络必须完全连接层128年神经元(而不是默认的号码,256年)。

initOpts = rlAgentInitializationOptions (“NumHiddenUnit”,128);

代理创建函数初始化演员和评论家网络随机。可以通过修复确保再现性的种子随机发生器。为此,取消注释以下行。

% rng (0)

创建一个策略梯度代理从环境中观察和操作规范。

代理= rlPGAgent (obsInfo actInfo initOpts);

提取深层神经网络的评论家。

criticNet = getModel (getCritic(代理));

默认DQN代理使用一个多输出核反应能量评论家估计值。一个多输出接近者已经观察输入和政府行动值作为输出。每个输出元素代表预期的长期累积奖励从国家采取相应的离散行动观察输入所示。

评论家的显示层网络,验证每个隐藏完全连接层有128个神经元

criticNet.Layers
ans x1 = 11层与层:数组1的concat串联连接2输入沿着维度1 2的relu_body ReLU ReLU 3 fc_body完全连接128完全连接层4的body_output ReLU ReLU 5 input_1的图像输入50 x50x1图片6 conv_1卷积64 3 x3x1旋转步[1]和填充[0 0 0 0]7‘relu_input_1 ReLU ReLU 8“fc_1”完全连接128完全连接层9“input_2”功能输入1功能10“fc_2”完全连接128完全连接层11“输出”完全连接1完全连接层

情节评论家网络

情节(layerGraph (criticNet))

图包含一个坐标轴对象。坐标轴graphplot类型的对象包含一个对象。

检查您的代理,使用getAction返回操作从一个随机的观察。

getAction(代理,{兰特(obsInfo (1) .Dimension),兰德(obsInfo (2) .Dimension)})
ans =1 x1单元阵列{[2]}

您现在可以测试和培训环境内的代理。

创建一个环境接口并获得其观察和操作规范。对于这个示例加载用于预定义的环境火车DQN代理Cart-Pole平衡系统的例子。这个环境中有一个连续四维观测空间(两车的位置和速度和极)和离散维操作空间组成应用程序的两个可能的部队,-10 n或10 n。

%负载预定义的环境env = rlPredefinedEnv (“CartPole-Discrete”);%得到观察和操作规范对象obsInfo = getObservationInfo (env);actInfo = getActionInfo (env);

创建一个深层神经网络作为近似模型内的评论家。DQN代理,您可以选择创建一个多输出评论家核反应能量函数,通常比对于类似的批评更有效。

评论家必须采取的网络的观测向量作为输入,并返回一个值为每一个行动。因此,它必须有一个输入层和尽可能多的元素观测空间的维数和一个输出层有尽可能多的元素数量的离散动作。每个输出元素代表预期的长期累积奖励根据输入的观察后,采取相应的行动。

款= [featureInputLayer (prod (obsInfo.Dimension),“归一化”,“没有”,“名字”,“状态”)fullyConnectedLayer(24日“名字”,“CriticStateFC1”)reluLayer (“名字”,“CriticRelu1”)fullyConnectedLayer(24日“名字”,“CriticStateFC2”)reluLayer (“名字”,“CriticCommonRelu”)fullyConnectedLayer(长度(actInfo.Elements),“名字”,“输出”));

创建一个评论家使用rlVectorQValueFunction,网络以及观察和操作规范。

评论家= rlVectorQValueFunction(款、obsInfo actInfo);

定义一些评论家培训选项。

criticOpts = rlOptimizerOptions (“LearnRate”1飞行,“GradientThreshold”1);

指定代理选项,创建DQN代理使用的评论家。

agentOpts = rlDQNAgentOptions (“UseDoubleDQN”假的,“TargetUpdateMethod”,“周期”,“TargetUpdateFrequency”4“ExperienceBufferLength”,100000,“DiscountFactor”,0.99,“MiniBatchSize”,256,“CriticOptimizerOptions”,criticOpts);代理= rlDQNAgent(评论家,agentOpts)
代理= rlDQNAgent属性:ExperienceBuffer: [1 x1 rl.replay。rlReplayMemory] AgentOptions: [1 x1 rl.option。rlDQNAgentOptions] UseExplorationPolicy: 0 ObservationInfo: [1x1 rl.util.rlNumericSpec] ActionInfo: [1x1 rl.util.rlFiniteSetSpec] SampleTime: 1

检查您的代理,使用getAction返回操作从一个随机的观察。

getAction(代理,{兰德(obsInfo.Dimension)})
ans =1 x1单元阵列{[10]}

您现在可以测试和培训代理与环境。

创建一个环境接口并获得其观察和操作规范。对于这个示例加载用于预定义的环境火车DQN代理Cart-Pole平衡系统的例子。这个环境中有一个连续四维观测空间(两车的位置和速度和极)和离散维操作空间组成应用程序的两个可能的部队,-10 n或10 n。

env = rlPredefinedEnv (“CartPole-Discrete”);obsInfo = getObservationInfo (env);actInfo = getActionInfo (env);

创建一个深层神经网络作为近似模型内的评论家。DQN代理,您可以选择创建一个多输出评论家核反应能量函数,通常比对于类似的批评更有效。但是,对于这个示例,创建一个对于核反应能量函数评论家。

这个评论家的网络必须具有两个输入层,一个用于观察,另一个用于行动,并返回一个标量值代表预期的长期累积奖励后从给定的观察和行动。

%定义路径statePath = [featureInputLayer (prod (obsInfo.Dimension),“归一化”,“没有”,“名字”,“状态”)fullyConnectedLayer(24日“名字”,“CriticStateFC1”)reluLayer (“名字”,“CriticRelu1”)fullyConnectedLayer(24日“名字”,“CriticStateFC2”));actionPath = [featureInputLayer (prod (actInfo.Dimension),“归一化”,“没有”,“名字”,“行动”)fullyConnectedLayer(24日“名字”,“CriticActionFC1”));commonPath = [additionLayer (2,“名字”,“添加”)reluLayer (“名字”,“CriticCommonRelu”)fullyConnectedLayer (1,“名字”,“输出”));%添加路径网络criticNetwork = layerGraph (statePath);criticNetwork = addLayers (criticNetwork actionPath);criticNetwork = addLayers (criticNetwork commonPath);%连接层criticNetwork = connectLayers (criticNetwork,“CriticStateFC2”,“添加/三机一体”);criticNetwork = connectLayers (criticNetwork,“CriticActionFC1”,“添加/ in2”);

创建一个评论家使用rlQValueFunction,criticNetwork,以及观察和操作规范。

评论家= rlQValueFunction (criticNetwork obsInfo actInfo);

定义一些评论家培训选项。

criticOptions = rlOptimizerOptions (“LearnRate”1飞行,“GradientThreshold”1);

指定代理选项,创建DQN代理使用的评论家。

agentOpts = rlDQNAgentOptions (“UseDoubleDQN”假的,“TargetUpdateMethod”,“周期”,“TargetUpdateFrequency”4“ExperienceBufferLength”,100000,“DiscountFactor”,0.99,“MiniBatchSize”,256,“CriticOptimizerOptions”,criticOptions);代理= rlDQNAgent(评论家,agentOpts)
代理= rlDQNAgent属性:ExperienceBuffer: [1 x1 rl.replay。rlReplayMemory] AgentOptions: [1 x1 rl.option。rlDQNAgentOptions] UseExplorationPolicy: 0 ObservationInfo: [1x1 rl.util.rlNumericSpec] ActionInfo: [1x1 rl.util.rlFiniteSetSpec] SampleTime: 1

检查您的代理,使用getAction返回操作从一个随机的观察。

getAction(代理,{兰德(4,1)})
ans =1 x1单元阵列{[10]}

您现在可以测试和培训代理与环境。

对于这个示例加载用于预定义的环境火车DQN代理Cart-Pole平衡系统的例子。

env = rlPredefinedEnv (“CartPole-Discrete”);

获得观察和操作信息。这个环境中有一个连续四维观测空间(两车的位置和速度和极)和离散维操作空间组成应用程序的两个可能的部队,-10 n或10 n。

obsInfo = getObservationInfo (env);actInfo = getActionInfo (env);

为你创建一个经常性深层神经网络评论家。创建一个递归神经网络,使用sequenceInputLayer作为输入层,包括一个lstmLayer的另一个网络层。

DQN代理,只有向量函数的估计值,rlVectorQValueFunction,支金宝app持递归神经网络模型。向量核反应能量函数批评,输出层的元素的个数等于数量的可能的行动:元素个数(actInfo.Elements)

criticNetwork = [sequenceInputLayer obsInfo.Dimension (1),“归一化”,“没有”,“名字”,“状态”)fullyConnectedLayer (50,“名字”,“cFC1”)reluLayer (“名字”,“cRelu1”)lstmLayer (20“OutputMode”,“序列”,“名字”,“cLSTM”);fullyConnectedLayer (20,“名字”,“cFC2”)reluLayer (“名字”,“cRelu2”)fullyConnectedLayer(元素个数(actInfo.Elements),“名字”,“输出”));

创建一个使用递归神经网络评论家。

评论家= rlVectorQValueFunction (criticNetwork obsInfo actInfo);

定义一些评论家培训选项。

criticOptions = rlOptimizerOptions (“LearnRate”1 e - 3,“GradientThreshold”1);

为创建DQN代理指定选项。使用递归神经网络,您必须指定一个SequenceLength大于1。

agentOptions = rlDQNAgentOptions (“UseDoubleDQN”假的,“TargetSmoothFactor”,5 e - 3,“ExperienceBufferLength”1 e6,“SequenceLength”32岁的“CriticOptimizerOptions”,criticOptions);agentOptions.EpsilonGreedyExploration。EpsilonDecay = 1的军医;

创建代理。演员和评论家网络随机初始化。

代理= rlDQNAgent(评论家,agentOptions);

检查你的代理使用getAction返回操作从一个随机的观察。

getAction(代理,兰德(obsInfo.Dimension))
ans =1 x1单元阵列{[-10]}

您现在可以测试和培训代理与环境。

版本历史

介绍了R2019a