政策

强化学习政策

自从R2022b

库:
强化学习工具箱

描述

使用政策块来模拟仿真软件的强化学习策略金宝app^®并生成代码(使用金宝app仿真软件编码器™)用于部署。这一块需要观察作为输入和输出操作。你把块MAT-file包含充分描述所需的信息政策,并可以生成的generatePolicyFunction或generatePolicyBlock。

例子

为部署生成政策阻止

生成一个政策块部署一个训练有素的政策。

打开生活的脚本

港口

输入

全部展开

观察- - - - - -环境观测
标量矢量| | nonvirtual总线

这个端口接收观测信号的环境。观察信号代表或其他瞬时测量系统数据。如果你有多个观测数据,您可以使用一个Mux块合并成一个向量信号。使用nonvirtual总线信号,使用bus2RLSpec。

输出

全部展开

行动- - - - - -政策行动
标量矢量| | nonvirtual总线

行动政策计算的基础上,观察输入。连接这个端口的输入系统。使用nonvirtual总线信号,使用bus2RLSpec。

请注意

政策块产生一个持续的行动空间rlStochasticActorPolicy对象或一个持续的行动空间rlACAgent,rlPGAgent,或rlPPOAgent对象,不强制约束,制定的行动规范。在这些情况下,您必须执行行动空间中约束环境。

参数

全部展开

政策文件数据块垫- - - - - -政策文件数据块垫
`blockAgentData.mat`(默认)|文件名

输入的名称MAT-file包含所需的信息充分描述政策。这个文件是由generatePolicyFunction或generatePolicyBlock。当您生成块使用generatePolicyBlock并指定一个非默认dataFileName参数,那么生成的块这个参数设置为指定的文件名,以便阻止与生成的数据文件。

使用一个政策块在一个有条件地执行子系统,例如触发子系统(金宝app模型)或者一个函数调用子系统(金宝app模型),您必须生成数据文件从一个代理或政策对象有它SampleTime属性设置为1。这样做允许块继承其父子系统的样品时间。

编程使用

块参数:MATFile

类型:字符串,特征向量

默认值:“blockAgentData.mat”

提示

当使用嵌入式编码器^®生成并行代码,使生成并行循环优化参数提高了性能数据处理时大大小。然而,如果很小,网络和数据初始化并行的线程的开销大大降低性能。在这种情况下,禁用生成并行循环。看到生成平行for循环(嵌入式编码)和coder.MexCodeConfig(MATLAB编码器)为更多的信息。

扩展功能

C / c++代码生成
使用仿真软件生成C和c++代码®编码器™。金宝app

版本历史

介绍了R2022b

另请参阅

政策

描述

例子

为部署生成政策阻止

港口

输入

观察- - - - - -环境观测标量矢量| | nonvirtual总线

输出

行动- - - - - -政策行动标量矢量| | nonvirtual总线

参数

政策文件数据块垫- - - - - -政策文件数据块垫blockAgentData.mat(默认)|文件名

编程使用

提示

扩展功能

C / c++代码生成使用仿真软件生成C和c++代码®编码器™。金宝app

版本历史

另请参阅

功能

对象

块

主题

观察- - - - - -环境观测
标量矢量| | nonvirtual总线

行动- - - - - -政策行动
标量矢量| | nonvirtual总线

政策文件数据块垫- - - - - -政策文件数据块垫
`blockAgentData.mat`(默认)|文件名

C / c++代码生成
使用仿真软件生成C和c++代码®编码器™。金宝app