文件帮助中心文件
在指定环境中模拟培训的钢筋学习代理
体验= SIM(env,代理商)
体验= SIM(代理商,ENV)
Env = SIM(___,Simopts)
例子
经验= SIM(env.那代理人)使用默认模拟选项模拟环境中的一个或多个加强学习代理。
经验= SIM(env.那代理人)
经验
env.
代理人
经验= SIM(代理人那env.)执行与先前语法相同的模拟。
经验= SIM(代理人那env.)
env.= SIM(___那模拟)使用模拟选项对象模拟。使用模拟选项指定每个模拟的步骤数或运行的模拟数量。在上一个语法中的任何输入参数后使用此语法。
env.= SIM(___那模拟)
模拟
全部收缩
使用为该环境配置的代理模拟增强学习环境。对于此示例,请加载已配置的环境和代理。环境是一个分立的推车环境Rlpredefinedenv.。代理是一种政策渐变(rlpgagent.) 代理人。有关在此示例中使用的环境和代理的详细信息,请参阅火车PG代理可以平衡车杆系统。
Rlpredefinedenv.
rlpgagent.
RNG(0)重复性的%加载rlsimexample.mat.env.
Env = CartpoledIscreteAcreacteAdeaction:重力:1 9.8000 Masscart:1 MassPole:0.1000
Agent = RLPGagent具有属性:AgentOptions:[1x1 rl.option.rlpgagentoptions]
通常,您使用使用的代理商火车并模拟环境以测试培训的代理的性能。对于此示例,使用加载的代理模拟环境。配置模拟选项,指定模拟运行100步。
火车
Simopts = RlsimulationOptions('maxsteps',100);
对于在此示例中使用的预定义推车环境。您可以使用阴谋生成卡车杆系统的可视化。当您模拟环境时,此绘图会自动更新,以便在仿真期间可以观看系统的发展。
阴谋
情节(env)
模拟环境。
体验= SIM(ENV,Agent,Simopts)
经验=结构与字段:观察:[1x1 struct]动作:[1x1 struct]奖励:[1x1次数] ISDONE:[1x1倍] SIMITIONINFO:[1x1 struct]
输出结构经验记录从环境中收集的观察,行动和奖励以及在模拟期间收集的其他数据。每个字段都包含一个时间序列对象或结构时间序列数据对象。例如,经验是A.时间序列在模拟的每个步骤中包含代理在推车系统上施加的动作。
时间序列
ans =.结构与字段:cartpoleaction:[1x1倍]
模拟为示例中使用的Simulink®模型创建的环境金宝app培训多个代理商执行协作任务,使用在该示例中培训的代理。
在MATLAB®工作区中加载代理。
加载rlcollaborativetaskagents.
创造一个环境rlcollaborativetask.金宝appSimulink®模型,有两个代理块。由于两个块使用的代理(Agenta.和AgentB.)已经在工作区中,您无需通过他们的观察和操作规范来创建环境。
rlcollaborativetask.
Agenta.
AgentB.
ent = rl金宝appsimulinkenv('rlcollaborativetask',[“rlcollaborativetask /代理A”那“rlcollaborativetask /代理b”]);
加载所需的参数rlcollaborativetask.金宝appSimulink®模型运行。
rlcollaborativetaskparams.
模拟工人反对环境,节省了经验XPR.。
XPR.
XPR = SIM(env,[Agenta Agentb]);
两个代理商的绘制行动。
子图(2,1,1);绘图(XPR(1).action.Forces)子图(2,1,2);绘图(XPR(2).action.Forces)
代理法案的环境指定为以下各种钢筋学习环境对象:
预定义的matlab.®或者模金宝app拟®环境创建的环境Rlpredefinedenv.。这种环境并不同时支持培训多个代理。金宝app
使用诸如此类的功能创建自定义MATLAB环境rlfunctionenv.或者rlcreateenvtemplate.。这种环境并不同时支持培训多个代理。金宝app
rlfunctionenv.
rlcreateenvtemplate.
您创建的自定义Si金宝appmulink环境Rl金宝appsimulinkenv.。这种环境在同时支持培训多个代理。金宝app
Rl金宝appsimulinkenv.
有关创建和配置环境的详细信息,请参阅:
创建MATLAB强化学习环境
创建Simul金宝appink强化学习环境
什么时候env.是一个Si金宝appmulink环境,致电SIM编译并模拟与环境关联的模型。
SIM
代理模拟,指定为加强学习代理对象,例如rlacagent.或者rlddpgagent.,或作为这些对象的阵列。
rlacagent.
rlddpgagent.
如果env.是一个创建的多代理环境Rl金宝appsimulinkenv.,将代理指定为数组。数组中的代理的顺序必须与用于创建的代理订单匹配env.。MATLAB环境不支持多代理模拟。金宝app
有关如何为强化学习创建和配置代理的更多信息,请参阅加固学习代理人。
RlsimulationOptions.
模拟选项,指定为一个RlsimulationOptions.目的。使用此参数指定选项,例如:
每个模拟的步数
运行的模拟数量
有关详细信息,请参阅RlsimulationOptions.。
仿真结果,作为结构或结构阵列返回。阵列中的行的行数等于所指定的模拟次数numsimulations.选择RlsimulationOptions.。数组中的列数是代理的数量。每个字段经验结构如下。
numsimulations.
观察
从环境中收集的观察,作为与环境中规定的观测相对应的字段的结构。每个字段都包含一个时间序列长度N+ 1,在哪里N是模拟步骤的数量。
为了获得当前观察和给定的模拟步骤的下一个观察,假设其中一个字段使用诸如以下内容的代码观察是obs1.。
obs1.
Obs = GetSapples(serageServation.obs1,1,1:n);nextobs = getsavples(serageServation.obs1,2:n + 1);
行动
代理计算的操作,作为与环境中指定的动作信号对应的字段的结构。每个字段都包含一个时间序列长度N, 在哪里N是模拟步骤的数量。
报酬
在模拟中的每一步的奖励,作为一个返回时间序列长度N, 在哪里N是模拟步骤的数量。
已经完成了
指示终止集的标志,作为a返回时间序列标量逻辑信号。根据配置环境时,根据您指定episode终止的条件,在每个步骤中设置此标志。当环境将此标志设置为1时,仿真终止。
模拟杂志
金宝appsimulink.simulationOutput.
在模拟期间收集的信息,作为以下内容之一返回:
对于matlab环境,包含该字段的结构SimulationError.。该结构包含在模拟期间发生的任何错误。
SimulationError.
对于Si金宝appmulink环境,a金宝appsimulink.simulationOutput.包含模拟数据的对象。录制的数据包括任何信号,并指出模型配置为日志,仿真元数据和发生的任何错误。
RlsimulationOptions.|火车
您有此示例的修改版本。您是否希望使用您的编辑打开此示例?
您单击了与此MATLAB命令对应的链接:
在MATLAB命令窗口中输入它来运行命令。Web浏览器不支持MATLAB命令。金宝app
选择一个网站,以便在可用的地方进行翻译的内容,并查看本地活动和优惠。根据您的位置,我们建议您选择:。
您还可以从以下列表中选择一个网站:
选择中国网站(以中文或英文)以获取最佳网站性能。其他MathWorks国家网站未优化您的位置。
联系您当地的办公室