主要内容

rlSimulationOptions

在环境中模拟强化学习代理的选项

描述

使用一个rlSimulationOptions对象指定用于在环境中模拟强化学习代理的模拟选项。要执行模拟,请使用sim卡

有关代理培训和模拟的更多信息,请参见训练强化学习代理

创建

描述

simOpts= rlSimulationOptions返回针对代理模拟强化学习环境的默认选项。使用模拟选项来指定有关模拟的参数,例如每个模拟运行的最大步骤数和要运行的模拟数。配置选项后,使用simOpts的输入参数sim卡

例子

选择= rlSimulationOptions (名称,值创建具有指定的模拟选项集属性使用一个或多个名称-值对参数。

属性

全部展开

运行模拟的步骤数,指定为由逗号分隔的对组成“MaxSteps”一个正整数。通常,您可以在环境中定义集终止条件。此值是在不满足终止条件时在模拟中运行的最大步骤数。

例子:“MaxSteps”,1000年

要运行的模拟数,指定为逗号分隔的对,包括“NumSimulations”一个正整数。在每次模拟开始时,sim卡重置环境。您可以指定在创建环境时重置环境时会发生什么。例如,在每一集的开始重置环境可以包括随机初始状态值,如果您配置您的环境这样做。在这种情况下,运行多个模拟允许您在一系列初始条件下验证经过训练的代理的性能。

例子:“NumSimulations”,10

当发生错误时停止模拟,指定为“关闭”“上”.当这个选项是“关闭”中捕获并返回错误SimulationInfo的输出sim卡,模拟继续进行。

使用并行模拟的标志,指定为逻辑.将此选项设置为真正的将模拟配置为使用并行处理来模拟环境,从而允许使用多核、处理器、计算机集群或云资源来加速模拟。要指定并行模拟的选项,请使用ParallelizationOptions财产。

注意,如果你想使用本地GPU加速深度神经网络计算(如梯度计算,参数更新和预测),你不需要设置UseParallel为true。相反,在创造你的演员或评论家形象时,使用rlRepresentationOptions对象,其中UseDevice选项设置为“图形”

使用并行计算或GPU需要并行计算工具箱™软件。另外需要使用计算机集群或云资源MATLAB®并行服务器™

有关使用多核处理器和gpu进行培训的更多信息,请参见使用并行计算和gpu的列车代理

例子:“UseParallel”,真的

控制并行模拟的并行化选项,指定为ParallelTraining对象。有关使用并行计算进行培训的更多信息,请参见训练强化学习代理

ParallelTraining对象具有以下属性,您可以在创建rlTrainingOptions对象。

随机化初始化工人,指定为一个如下:

  • 1-给每个工人分配一个唯一的随机种子。种子的值是worker ID。

  • 2不要随机分配种子给工人。

  • 向量-手动指定每个工作的随机种子。vector中的元素数量必须与worker的数量匹配。

将模型和工作区变量发送给并行工作人员,指定为“上”“关闭”.当选择是“上”,主机将模型中使用的变量和MATLAB基本工作空间中定义的变量发送给工作人员。

附加到并行池的附加文件,指定为字符串或字符串数组。

在模拟开始之前运行的函数,指定为没有输入参数的函数的句柄。这个函数在模拟开始之前对每个worker运行一次。编写此函数以执行模拟之前需要的任何处理。

在模拟结束后运行的函数,指定为没有输入参数的函数的句柄。可以编写此函数来清理工作区或在模拟终止后执行其他处理。

对象的功能

sim卡 在指定的环境中模拟训练过的强化学习代理

例子

全部折叠

创建一个选项集来模拟强化学习环境。将模拟的步骤数设置为1000,并配置选项以运行三个模拟。

在创建选项集时,可以使用名称、值对设置选项。没有显式设置的任何选项都有其默认值。

simOpts = rlSimulationOptions (...“MaxSteps”, 1000,...“NumSimulations”3)
simOpts = rlSimulationOptions with properties: MaxSteps: 1000 numsimulate: 3 StopOnError: "on" UseParallel: 0 ParallelizationOptions: [1x1 rl.option.ParallelSimulation]

或者,创建一个默认选项集,并使用点符号来更改一些值。

simOpts = rlSimulationOptions;simOpts。MaxSteps= 1000; simOpts.NumSimulations = 3; simOpts
simOpts = rlSimulationOptions with properties: MaxSteps: 1000 numsimulate: 3 StopOnError: "on" UseParallel: 0 ParallelizationOptions: [1x1 rl.option.ParallelSimulation]

另请参阅

介绍了R2019a