生成policyfunction.

创建评估培训的强化学习代理策略的功能

页面上倒塌

句法

生成policyfunction（代理）

generatepolicyfunction（代理，姓名，值）

描述

例子

generatepolicyfunction（代理人）使用默认函数，策略和数据文件名创建一种函数，该函数评估指定代理的学习策略。生成策略评估功能后，您可以：

生成函数的代码马铃薯^®编码器™或GPU编码器™。有关更多信息，请参阅部署培训的强化学习政策。
模拟Simulink中的培训代理金宝app^®用一个Matlab功能（金宝appSimulink）堵塞。

例子

generatepolicyfunction（代理人那名称，价值）使用一个或多个名称值对参数指定函数，策略和数据文件名。

例子

全部收缩

为PG代理创建策略评估功能

打开直播脚本

此示例显示如何为PG代理创建策略评估功能。

首先，创建和培训钢筋学习代理。对于此示例，请加载培训的PG代理火车PG代理可以平衡车杆系统：

加载（'matlabcartpolepg.mat'那'代理人'）

然后，使用默认名称为此代理创建策略评估函数：

生成PolicyFunction（代理）;

此命令创建equatepolicy.m.文件，包含策略函数，以及AgentData.mat.文件，包含培训的深神经网络演员。

查看生成的函数。

类型equatepolicy.m.

函数Action1 = evaluatePolicy（观察1）％＃Codegen％钢筋学习工具箱％：23-FEB-2021 18:52:32 Actionset = [-10 10];％从采样概率选择概率= localEvaluate（观察1）;％归一化概率p =概率（:)'/ sum（概率）;％确定要采取的边缘= min的动作（[0 cumsum（p）]，1）;边缘（结束）= 1;[〜，actionIndex] = histc（rand（1,1），边缘）;％＃确定 action1 = actionset（actionsIndex）;结束%%本函数函数概率= localEvaluate（观察1）持久策略如果是isempty（policy）policy = coder.loaddeeplearningnetwork（'AgentData.mat'，'策略'）;结束观察1 =观察1（:)';概率=预测（政策，观察1）; end

对于给定观察，策略函数使用演员网络评估每个潜在动作的概率。然后，策略函数随机基于这些概率选择动作。

由于该PG代理的演员网络具有单个输入层和单个输出层，因此您可以使用深度学习工具箱™生成功能为此网络生成代码。有关更多信息，请参阅部署培训的强化学习政策。

为Q学习代理创建策略评估函数

打开直播脚本

此示例显示如何为Q学习代理创建策略评估功能。

对于此示例，请加载培训的Q学习代理在基本网格世界中列车加固学习代理

加载（'basicgwqagent.mat'那'Qagent'）

为此代理创建策略评估函数，并指定代理数据文件的名称。

generatepolicyfunction（qagent，'matfilename'那“policyfile.mat”）

此命令创建equatepolicy.m.文件，包含策略函数，以及policyfile.mat.文件，其中包含培训的Q表值函数。

查看生成的函数。

类型equatepolicy.m.

函数Action1 = evaluatePolicy（观察1）％＃Codegen％钢筋学习工具箱％：23-FeB-2021 18:52:34 Actionset = [1; 2; 3; 4];数量=数量（actionset）;q =零（1，数量）;对于i = 1：natimate q（i）= localevaluate（观察1，actionset（i））;结束[〜，actionIndex] = max（q）;Action1 = Icsionset（ActionIndex）;结束%%本函数函数q = lopalevaluate（观察1，动作）持久策略如果是isempty（policy）s = coder.load（'policyfile.mat'，'策略'）;policy = s.policy;结束actionset = [1; 2; 3; 4];观察到= [1; 2; 3; 4; 5; 6; 7; 8; 9; 10; 11; 12; 13; 14; 15; 16; 17; 18; 19; 20; 21; 22; 23; 24; 25]; actionIndex = rl.codegen.getElementIndex(actionSet,action); observationIndex = rl.codegen.getElementIndex(observationSet,observation1); q = policy(observationIndex,actionIndex); end

对于给定的观察，策略函数使用Q表查找每个潜在动作的值函数。然后，策略函数选择值函数最大的操作。

您可以使用MATLAB®Coder™生成此策略功能的代码

有关更多信息，请参阅部署培训的强化学习政策