主要内容

政策

强化学习政策

自从R2022b

  • 政策阻止

库:
强化学习工具箱

描述

使用政策块来模拟仿真软件的强化学习策略金宝app®并生成代码(使用金宝app仿真软件编码器™)用于部署。这一块需要观察作为输入和输出操作。你把块MAT-file包含充分描述所需的信息政策,并可以生成的generatePolicyFunctiongeneratePolicyBlock

港口

输入

全部展开

这个端口接收观测信号的环境。观察信号代表或其他瞬时测量系统数据。如果你有多个观测数据,您可以使用一个Mux块合并成一个向量信号。使用nonvirtual总线信号,使用bus2RLSpec

输出

全部展开

行动政策计算的基础上,观察输入。连接这个端口的输入系统。使用nonvirtual总线信号,使用bus2RLSpec

请注意

政策块产生一个持续的行动空间rlStochasticActorPolicy对象或一个持续的行动空间rlACAgent,rlPGAgent,或rlPPOAgent对象,不强制约束,制定的行动规范。在这些情况下,您必须执行行动空间中约束环境。

参数

全部展开

输入的名称MAT-file包含所需的信息充分描述政策。这个文件是由generatePolicyFunctiongeneratePolicyBlock。当您生成块使用generatePolicyBlock并指定一个非默认dataFileName参数,那么生成的块这个参数设置为指定的文件名,以便阻止与生成的数据文件。

使用一个政策块在一个有条件地执行子系统,例如触发子系统(金宝app模型)或者一个函数调用子系统(金宝app模型),您必须生成数据文件从一个代理或政策对象有它SampleTime属性设置为1。这样做允许块继承其父子系统的样品时间。

编程使用

块参数:MATFile
类型:字符串,特征向量
默认值:“blockAgentData.mat”

提示

  • 当使用嵌入式编码器®生成并行代码,使生成并行循环优化参数提高了性能数据处理时大大小。然而,如果很小,网络和数据初始化并行的线程的开销大大降低性能。在这种情况下,禁用生成并行循环。看到生成平行for循环(嵌入式编码)coder.MexCodeConfig(MATLAB编码器)为更多的信息。

扩展功能

C / c++代码生成
使用仿真软件生成C和c++代码®编码器™。金宝app

版本历史

介绍了R2022b