文档帮助中心文档
创建评估强化学习代理的训练策略的函数
generatePolicyFunction(代理)
generatePolicyFunction(代理、名称、值)
例子
generatePolicyFunction (代理)创建一个函数,该函数使用默认函数、策略和数据文件名评估指定代理的学习策略。生成策略评估功能后,您可以:
generatePolicyFunction (代理)
代理
使用生成函数的代码MATLAB®编码器™或GPU编码器™。有关更多信息,请参见部署训练有素的强化学习政策.
在Simulink中模拟训练过的agent金宝app®使用一个MATLAB函数(金宝app模型)块。
generatePolicyFunction (代理,名称,值)使用一个或多个名称-值对参数指定函数、策略和数据文件名称。
generatePolicyFunction (代理,名称,值)
名称,值
全部折叠
本示例演示如何为PG Agent创建策略评估函数。
首先,创建并训练一个强化学习代理。对于本例,加载PG代理训练PG代理平衡车杆系统:
负载(“MATLABCartpolePG.mat”,“代理”)
然后,使用默认名称为该代理创建策略评估函数:
generatePolicyFunction(代理);
该命令创建evaluatePolicy.m文件,其中包含策略函数,以及agentData.mat文件,其中包含训练的深度神经网络参与者。
evaluatePolicy.m
agentData.mat
查看生成的函数。
类型evaluatePolicy.m
function action1 = evaluatePolicy(observation1) %#codegen % Reinforcement Learning Toolbox % Generated on: 01-Sep-2021 14:14:41 actionSet = [-10 10];%从抽样概率中选择动作概率= localEvaluate(observation1);% Normalize the probability p = probability (:)'/sum(probability);= min([0 cumsum(p)],1);边(结束)= 1;[~, actionIndex] = histc(兰德(1,1),边);%#ok action1 = actionSet(actionIndex);end %%本地函数函数概率= localEvaluate(observation1) persistent policy if isempty(policy) policy = code . loaddeeplearningnetwork ('agentData.mat','policy');End observation1 = observation1(:)';概率=预测(政策,观察1); end
对于给定的观测,策略函数使用行动者网络评估每个潜在动作的概率。然后,策略函数根据这些概率随机选择一个行动。
评估随机观察的策略。
evaluatePolicy(兰德(4,1))
ans = 10
您现在可以使用MATLAB®Coder™为这个策略函数生成代码。有关更多信息,请参见部署训练有素的强化学习政策.
这个例子展示了如何为Q-Learning Agent创建一个策略评估函数。
对于本例,加载经过训练的Q-learning agent在基本网格世界中训练强化学习代理
负载(“basicGWQAgent.mat”,“qAgent”)
为该代理创建策略评估函数,并指定代理数据文件的名称。
generatePolicyFunction (qAgent“MATFileName”,“policyFile.mat”)
该命令创建evaluatePolicy.m文件,其中包含策略函数,以及policyFile.mat文件,其中包含经过训练的Q表值函数。
policyFile.mat
function action1 = evaluatePolicy(observation1) %#codegen % Reinforcement Learning Toolbox % Generated on: 01- 9 -2021 14:14:44 actionSet = [1;2;3;4];numActions =元素个数(actionSet);q = 0(1、numActions);for i = 1:numActions q(i) = localEvaluate(observation1,actionSet(i));end [~,actionIndex] = max(q);action1 = actionSet (actionIndex);end %% Local Functions function q = localEvaluate(observation1,action) persistent policy if isempty(policy) s = code .load('policyFile.mat','policy');政策= s.policy;end actionSet = [1;2;3;4];observationSet =[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12、13、14、15、16、17、18、19、20、21、22、23、24、25); actionIndex = rl.codegen.getElementIndex(actionSet,action); observationIndex = rl.codegen.getElementIndex(observationSet,observation1); q = policy(observationIndex,actionIndex); end
对于给定的观察,策略函数使用Q表查找每个潜在操作的值函数。然后,策略函数选择价值函数最大的动作。
evaluatePolicy (randi (25)
ans = 1
训练过的强化学习agent,指定为:
rlQAgent对象
rlQAgent
rlSARSAAgent对象
rlSARSAAgent
rlDDPGAgent对象
rlDDPGAgent
rlTD3Agent对象
rlTD3Agent
rlACAgent对象
rlACAgent
rlPGAgent对象,该对象使用评论家估计基线值函数
rlPGAgent
训练你的特工,使用火车函数。
火车
指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家.
的名字
价值
Name1, Value1,…,的家
“FunctionName”、“computeAction”
FunctionName
“evaluatePolicy”
生成函数的名称,指定为名称-值对“FunctionName”和一个字符串或字符向量。
“FunctionName”
PolicyName
“政策”
生成函数中策略变量的名称,指定为名称-值对“PolicyName”和一个字符串或字符向量。
“PolicyName”
MATFileName
“agentData”
代理数据文件的名称,指定为由以下内容组成的名称-值对“MATFileName”和一个字符串或字符向量。
“MATFileName”
火车|dlnetwork
dlnetwork
您有这个示例的修改版本。您想打开这个示例与您的编辑吗?
你点击一个链接对应于这个MATLAB命令:
通过在MATLAB命令窗口中输入命令来运行命令。Web浏览器不支持MATLAB命令。金宝app
选择一个网站,在那里获得翻译的内容,并看到当地的活动和优惠。根据您的位置,我们建议您选择:.
你也可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。
与当地办事处联系