主要内容

部署训练有素的强化学习政策

一旦您训练了强化学习代理,您就可以生成代码来部署最优策略。您可以生成:

  • CUDA®使用GPU Coder™的深度神经网络策略代码

  • C/ c++代码,适用于表,深度神经网络,或线性基函数策略使用MATLAB®编码器™

只要支持所有使用的层,在任何输入路径中金宝app使用前馈神经网络的代理都支持代码生成。使用递归神经网络(RNN)的连续动作PG、AC金宝app、PPO和SAC代理不支持代码生成。

有关培训加固学习代理的更多信息,请参阅训练强化学习代理

要创建基于给定观察的策略评估功能,请使用生成policyfunction.命令。该命令生成一个MATLAB脚本,其中包含策略评估函数,以及一个mat -文件,其中包含最优策略数据。

您可以使用GPU编码器或生成代码来部署此策略功能MATLAB编码器

使用代码使用GPU编码器

如果您训练的最优策略使用深度神经网络,您可以使用GPU编码器为策略生成CUDA代码。有关受支持的gpu的更多信息,请参阅金宝appGPU通金宝app过发布支持(并行计算工具箱).有几种要求和推荐的先决条件产品,用于为深神经网络生成CUDA代码。下载188bet金宝搏有关更多信息,请参见安装必备产品下载188bet金宝搏(GPU编码器)设置前提产品下载188bet金宝搏(GPU编码器)

并非所有深度神经网络层都支持GPU代码生成。金宝app有关受支持的层的列表,请参见金宝app金宝app支持的网络,图层和类(GPU编码器).有关GPU代码生成的更多信息和示例,请参见与GPU编码器深入学习(GPU编码器)

生成CUDA深度神经网络策略代码

例如,为培训的策略梯度代理生成GPU代码火车PG代理可以平衡车杆系统

加载培训的代理。

负载('matlabcartpolepg.mat'“代理”

为该代理创建策略评估函数。

生成policyfunction(代理)

该命令创建equatepolicy.m.文件,包含策略函数,以及agentData.mat文件,其中包含训练的深度神经网络参与者。对于给定的观测,策略函数使用行动者网络评估每个潜在动作的概率。然后,策略函数根据这些概率随机选择一个行动。

您可以使用GPU编码器为此网络生成代码。例如,您可以生成CUDA兼容MEX函数。

配置codegen功能创建CUDA兼容C ++ MEX功能。

cfg = coder.gpuConfig (墨西哥人的);cfg.targetlang =“c++”;cfg.deeplearningconfig = coder.deeplearningconfig('cudnn');

设置策略评估功能的示例输入值。要找到观察维度,请使用getobservationInfo.函数。在这种情况下,观测值是一个四元素向量。

argstr ='{ONEON(4,1)}'

使用codegen函数。

codegen (“配置”“cfg”'equatepolicy'“参数”,argstr,'-报告');

此命令生成MEX函数evaluatepolicy_mex.

使用代码使用MATLAB编码器

您可以使用表,深神经网络或线性基础函数策略生成C / C ++代码MATLAB编码器

使用MATLAB编码器,您可以生成:

不使用任何第三方库生成深度神经网络策略的C代码

例如,生成不依赖第三方库的C代码,用于训练的策略梯度代理火车PG代理可以平衡车杆系统

加载培训的代理。

负载('matlabcartpolepg.mat'“代理”

为该代理创建策略评估函数。

生成policyfunction(代理)

该命令创建equatepolicy.m.文件,包含策略函数,以及agentData.mat文件,其中包含训练的深度神经网络参与者。对于给定的观测,策略函数使用行动者网络评估每个潜在动作的概率。然后,策略函数根据这些概率随机选择一个行动。

配置codegen生成适合构建MEX文件的代码的函数。

cfg = coder.config (墨西哥人的);

在配置对象上,将目标语言设置为C ++,并设置DeeplearningConfig到 '没有一个”。此选项不使用任何第三方库生成代码。

cfg.targetlang =“C”;cfg.deeplearningconfig = coder.deeplearningconfig(“没有”);

设置策略评估功能的示例输入值。要找到观察维度,请使用getobservationInfo.函数。在这种情况下,观测值是一个四元素向量。

argstr ='{ONEON(4,1)}'

使用codegen函数。

codegen (“配置”“cfg”'equatepolicy'“参数”,argstr,'-报告');

这个命令为包含深度神经网络参与者的策略梯度代理生成c++代码。

使用第三方库生成用于深度神经网络策略的C ++代码

例如,为培训的策略渐变代理生成C ++代码火车PG代理可以平衡车杆系统使用英特尔深度神经网络数学内核库(MKL-DNN)。

加载培训的代理。

负载('matlabcartpolepg.mat'“代理”

为该代理创建策略评估函数。

生成policyfunction(代理)

该命令创建equatepolicy.m.文件,包含策略函数,以及agentData.mat文件,其中包含训练的深度神经网络参与者。对于给定的观测,策略函数使用行动者网络评估每个潜在动作的概率。然后,策略函数根据这些概率随机选择一个行动。

配置codegen生成适合构建MEX文件的代码的函数。

cfg = coder.config (墨西哥人的);

在配置对象上,将目标语言设置为C ++,并设置DeeplearningConfig到目标库'Mkldnn.”。此选项生成使用Intel Math Kernel库进行深度神经网络(Intel MKL-DNN)的代码。

cfg.targetlang =“c++”;cfg.deeplearningconfig = coder.deeplearningconfig(“mkldnn”);

设置策略评估功能的示例输入值。要找到观察维度,请使用getobservationInfo.函数。在这种情况下,观测值是一个四元素向量。

argstr ='{ONEON(4,1)}'

使用codegen函数。

codegen (“配置”“cfg”'equatepolicy'“参数”,argstr,'-报告');

这个命令为包含深度神经网络参与者的策略梯度代理生成c++代码。

为Q表策略生成C代码

为例,生成在中训练的Q-learning agent的C代码在基本网格世界中列车加固学习代理

加载培训的代理。

负载(“basicGWQAgent.mat”“qAgent”

为该代理创建策略评估函数。

generatePolicyFunction (qAgent)

该命令创建equatepolicy.m.文件,包含策略函数,以及agentData.mat文件,其中包含培训的Q表值函数。对于给定的观察,策略函数使用Q表查找每个潜在动作的值函数。然后,策略函数选择值函数最大的操作。

设置策略评估功能的示例输入值。要找到观察维度,请使用getobservationInfo.函数。在这种情况下,有一个单一的一维观测(属于一个离散的可能值集)。

argstr =“{[1]}”

配置codegen函数生成适合于目标为静态库的可嵌入C代码,并将输出文件夹设置为BuildFolder.

cfg = coder.config (“自由”);倒转褶皱='buildfolder'

使用使用的C代码codegen函数。

codegen ('-C''-d',外档,“配置”“cfg”...'equatepolicy'“参数”,argstr,'-报告');

另请参阅

相关话题