runEpisode
描述
例子
模拟环境和代理
创建一个强化学习环境并提取其观察和操作规范。
env = rlPredefinedEnv (“CartPole-Discrete”);obsInfo = getObservationInfo (env);actInfo = getActionInfo (env);
近似核反应能量函数在评论家,使用神经网络。创建一个网络层对象数组。
网= […featureInputLayer (obsInfo.Dimension (1) fullyConnectedLayer (24) reluLayer fullyConnectedLayer (24) reluLayer fullyConnectedLayer (2) softmaxLayer];
网络转换为一个dlnetwork
对象和显示可学的参数的数量(重量)。
网= dlnetwork(净);总结(净)
初始化:可学的真正的数字:770输入:1“输入”4特性
创建一个离散分类演员使用网络。
演员= rlDiscreteCategoricalActor(网,obsInfo, actInfo);
检查你的演员与一个随机观测。
行动= getAction(演员,{兰德(obsInfo.Dimension)})
行动=1 x1单元阵列{[-10]}
创建一个政策对象的演员。
政策= rlStochasticActorPolicy(演员);
创建一个缓冲区的经验。
缓冲= rlReplayMemory (obsInfo actInfo);
设置运行多个模拟环境。对于这个示例,配置培训记录任何错误,而不向他们发送到命令窗口。
设置(env, StopOnError =“关闭”)
使用环境和政策模拟多个事件。每一集后,附加缓冲的经历。在这个例子中,运行100集。
为我= 1:10 0输出= runEpisode (env、政策MaxSteps = 300);追加(缓冲区,output.AgentData.Experiences)结束
清理环境。
清理(env)
样本的mini-batch经历从缓冲。对于这个示例,样品10经验。
批=样本(缓冲区,10);
然后您可以从采样经验和更新政策和演员。
输入参数
env
- - - - - -强化学习环境
环境对象|……
强化学习环境,指定为以下对象之一。
rlFunctionEnv
——环境定义使用自定义函数金宝appSimulinkEnvWithAgent
——金宝app仿真软件®所创造的环境中使用rl金宝appSimulinkEnv
或createIntegratedEnv
rlMDPEnv
——马尔可夫决策过程的环境rlNeuralNetworkEnvironment
——环境与深层神经网络转换模型预定义的环境使用
rlPredefinedEnv
自定义环境从一个模板创建(
rlCreateEnvTemplate
)
政策
- - - - - -政策
策略对象|组策略对象
政策对象,指定为以下对象之一。
rlDeterministicActorPolicy
rlAdditiveNoisePolicy
rlEpsilonGreedyPolicy
rlMaxQPolicy
rlStochasticActorPolicy
如果env
多智能体训金宝app练,是一个仿真软件环境配置为指定吗政策
作为一个政策对象数组。政策的顺序必须与代理命令用于创建数组env
。
在一个政策对象的更多信息,在MATLAB®命令行中,键入帮助
其次是政策对象名称。
代理
- - - - - -强化学习代理
代理对象|代理对象的数组
名称-值参数
指定可选的双参数作为Name1 = Value1,…,以=家
,在那里的名字
参数名称和吗价值
相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。
例子:MaxSteps = 1000
MaxSteps
- - - - - -最大限度的模拟步骤
500年
(默认)|正整数
最大限度的模拟步骤,指定为一个正整数。
ProcessExperienceFcn
- - - - - -函数处理经验
函数处理|处理单元阵列的功能
函数处理经验和更新政策或代理基于每个经验发生在仿真,指定为一个函数处理以下签名。
[updatedPolicy, updatedData] = myFcn(经验、episodeInfo政策,数据)
在这里:
经验
是一个结构,包含一个经验。结构领域的更多信息,请参阅output.Experiences
。episodeInfo
包含有关当前数据集和对应output.EpisodeInfo
。政策
政策或代理对象被模拟。数据
包含经验处理数据。有关更多信息,请参见ProcessExperienceData
。updatedPolicy
是更新后的政策或代理。updatedData
是更新后的数据处理经验,作为吗数据
输入在处理下一个经验。
如果env
多智能体训金宝app练,是一个仿真软件环境配置为指定吗ProcessExperienceFcn
作为一个处理单元阵列的功能。数组中的函数处理的顺序必须与代理命令用于创建env
。
ProcessExperienceData
- - - - - -经验处理数据
任何MATLAB数据类型|单元阵列
经验处理数据,指定为任何MATLAB数据,比如数组或结构。使用这些数据通过额外的参数或信息处理函数的经验。
还可以更新这个数据内的经验处理函数时使用不同的参数处理下一个经验。指定当你调用的数据值runEpisode
使用过程中的第一个经验模拟。
如果env
多智能体训金宝app练,是一个仿真软件环境配置为指定吗ProcessExperienceData
作为一个单元阵列。数组元素的顺序必须与代理命令用于创建env
。
CleanupPostSim
- - - - - -选择清理环境
真正的
(默认)|假
选择清理环境仿真后,指定为真正的
或假
。当CleanupPostSim
是真正的
,runEpisode
调用清理(env)
当模拟结束。
运行多个集没有清理环境,集CleanupPostSim
来假
。你可以叫清理(env)
在运行模拟。
如果env
是一个金宝appSimulinkEnvWithAgent
对象和相关的仿真软件模型配置为使用快速启动,那么模型金宝app模拟之间仍然处于编辑状态CleanUpPostSim
是假
。
LogExperiences
- - - - - -选择日志的经历
真正的
(默认)|假
选择日志为每个政策或代理经验,指定为真正的
或假
。当LogExperiences
是真正的
政策或代理的经验,登录output.Experiences
。
输出参数
输出
——模拟输出
结构|未来
对象
模拟输出,作为结构返回的字段AgentData
和SimulationInfo
。
的AgentData
字段是一个结构数组中包含的数据为每个代理或政策。每一个AgentData
结构有以下字段。
场 | 描述 |
---|---|
经历 |
记录的政策或代理的经验,作为一个结构数组返回。每个经验包含以下字段。
|
时间 |
模拟的经验,作为一个向量返回。 |
EpisodeInfo |
集信息,作为结构与以下字段返回。
|
ProcessExperienceData |
经验处理数据 |
代理 |
政策或代理用于仿真 |
的SimulationInfo
字段是下列之一:
为MATLAB环境——包含字段的结构
SimulationError
。这个结构包含模拟期间发生的任何错误。对于仿真金宝app软件环境,
金宝appSimulink.SimulationOutput
对象包含仿真数据。记录数据包括任何信号和状态日志配置的模型,模拟的元数据,以及可能出现的任何错误。
提示
你可以加快集使用并行计算模拟。为此,使用
设置
功能和设置UseParallel
参数真正的
。设置(env UseParallel = true)
版本历史
介绍了R2022a
Abrir比如
这种版本modificada德埃斯特比如。害怕Desea abrir埃斯特比如con sus modificaciones吗?
第一de MATLAB
Ha事实clic en联合国围绕此时一个埃斯特第一de MATLAB:
Ejecute el第一introduciendolo en la ventana de第一de MATLAB。洛杉矶navegadores网络没有admiten第一de MATLAB。
你也可以从下面的列表中选择一个网站:
表现最好的网站怎么走吗
选择中国网站(中文或英文)最佳站点的性能。其他MathWorks国家网站不优化的访问你的位置。