的加固学习设计师应用程序金宝app支持以下类型的代理。
深Q-Network代理(DQN)
深度确定性策略梯度代理(DDPG)
双延迟深度确定性策略梯度代理(TD3)
近端政策优化代理(PPO)
训练特工使用加固学习设计师,则必须首先创建或导入环境。有关更多信息,请参见为强化学习设计师创建MATLAB环境和为强化学习设计金宝app器创建Simulink环境.
要创建代理,请在强化学习标签,在代理人部分中,点击新的.
在“创建代理”对话框中,指定以下信息。
代理名称- 指定代理的名称。
环境—选择之前创建或导入的环境。
兼容的算法—选择agent训练算法。此列表只包含与所选环境兼容的算法。
的加固学习设计师应用程序创建具有默认深度神经网络演员和批评者表示的代理商。您可以为默认网络指定以下选项。
隐藏单位数量-指定演员和评论家网络的每个全连接或LSTM层的单元数。
使用反复性神经网络-选择此选项,使用包含LSTM层的递归神经网络创建演员和评论家表示。
要创建代理,请单击好的.
应用程序将新的默认代理添加到代理窗格并打开一个用于编辑代理选项的文档。
还可以从MATLAB中导入代理®工作区进入加固学习设计师.这样做,在强化学习选项卡上,单击进口.然后,下面选择代理,选择要导入的代理。
该应用程序将新的进口代理添加到代理窗格并打开一个用于编辑代理选项的文档。
在加固学习设计师,可在相应的代理文档中编辑代理选项。
您可以为每个代理编辑以下选项。
代理选项- 代理选项,例如采样时间和折扣系数。为所有支持的代理类型指定这些选项。金宝app
探索模型-探索模式选项。PPO代理没有探索模式。
目标策略平滑模型-目标政策平滑选项,仅支持TD3代理。金宝app
有关这些选项的更多信息,请参阅相应的代理选项对象。
rldqnagentoptions.
- DQN代理选项
rlDDPGAgentOptions
- DDPG代理选项
rlTD3AgentOptions
- TD3代理选项
rlPPOAgentOptions
- PPO代理选项
您可以从MATLAB工作区导入代理选项。要为每种类型的代理创建选项,请使用上述对象之一。您还可以导入以前从中导出的选项加固学习设计师应用程序
来导入选项,在相应的代理人选项卡上,单击进口.然后,下面选项,选择选项对象。该应用程序只列出了来自MATLAB工作区的兼容选项对象。
该应用程序配置代理选项以匹配所选选项对象中的选项。
您可以为每个代理编辑参与者和评论家表示的属性。
DQN代理人只有一个评论家网络。
DDPG和PPO代理商有一个演员代表和批评者代表。
TD3代理商有一个演员代表和两位批评者表示。修改TD3代理的批评批评表示选项时,更改适用于批评者。
您还可以从MATLAB工作空间导入角色和评论表示。有关创建演员和影评人表示的更多信息,请参见创建策略和价值功能表示.您还可以导入您以前从加固学习设计师应用程序。
进口演员或批评者代表,在相应的情况下代理人选项卡上,单击进口.然后,在下面演员或者评论家,选择具有与代理规范兼容的动作和观察规范的表示对象。
该应用程序将代理中的演员或影评人表示替换为选定的表示。如果您为一个TD3代理导入一个评论家表示,应用程序将为两个评论家替换网络。
要为参与者或评论家使用非默认的深度神经网络,必须从MATLAB工作空间中导入该网络。一种常用的策略是导出默认的深度神经网络,使用深网络设计师应用程序,然后将其导入回收加固学习设计师.有关为演员和批评者创建深度神经网络的更多信息,请参阅创建策略和价值功能表示.
导入一个深度神经网络,就相应的代理人选项卡上,单击进口.然后,在下面演员神经网络或者评论家神经网络,选择输入和输出层与代理的观察和动作规范兼容的网络。
该应用程序取代了相应的参与者或代理表示中的深度神经网络。如果你为一个TD3代理导入一个评论家网络,应用程序会为两个评论家替换网络。
对于给定代理,您可以将以下任何一种导出到MATLAB工作区。
代理人
剂的选择
演员或评论家代表
演员或评论家深神经网络
导出代理或代理组件,在相应的情况下代理人选项卡上,单击出口.然后,选择要导出的项目。
应用程序在MATLAB工作空间中保存代理或代理组件的副本。