使用强化学习设计器创建代理
的强化学习设计师App支金宝app持以下类型的代理。
深度q -网络代理(DQN)
深度确定性策略梯度代理(DDPG)
双延迟深度确定性策略梯度代理(TD3)
近端策略优化代理(PPO)
信任区域策略优化代理(TRPO)
软演员-评论家代理(囊)
训练特工使用强化学习设计师时,必须先创建或导入环境。有关更多信息,请参见创建增强学习设计器的MATLAB环境而且为强化学习设计金宝app器创建Simulink环境.
创建代理
上创建代理强化学习选项卡,在代理部分中,点击新.
在“创建代理”对话框中,指定以下信息。
代理名称-指定代理的名称。
环境—选择已创建或导入的环境。
兼容的算法—选择座席训练算法。此列表仅包含与所选环境兼容的算法。
的强化学习设计师App基于默认的深度神经网络创建有演员和评论家的代理。您可以为默认网络指定以下选项。
隐藏单元数量-指定演员网络和评论家网络的每个全连接层或LSTM层中的单元数。
使用循环神经网络-选择此选项以创建包含LSTM层的循环神经网络的演员和评论家。
如需创建代理,请单击好吧.
应用程序将新的默认代理添加到代理窗格并打开文档以编辑代理选项。
进口代理商
也可以从MATLAB中导入代理®工作空间到强化学习设计师.要做到这一点,就强化学习选项卡上,单击进口.然后,在选择代理,选择要导入的代理。
应用程序将新导入的代理添加到代理窗格并打开文档以编辑代理选项。
编辑代理选项
在强化学习设计师,可在相应的代理文档中编辑代理选项。
您可以为每个代理编辑以下选项。
剂的选择-代理选项,如采样时间和折扣因素。为所有受支持的代理类型指定这些选项。金宝app
探索模型-探索模型选项。PPO代理没有勘探模型。
目标策略平滑模型—目标策略平滑选项,只支持TD3座席。金宝app
有关这些选项的详细信息,请参阅相应的代理选项对象。
rlDQNAgentOptions
—DQN代理选项rlDDPGAgentOptions
—DDPG代理选项rlTD3AgentOptions
—TD3代理选项rlPPOAgentOptions
- PPO代理选项
您可以从MATLAB工作区导入代理选项。要为每种类型的代理创建选项,请使用上述对象之一。控件中导出的选项也可以导入强化学习设计师应用程序
要导入的选项,在相应的代理选项卡上,单击进口.然后,在选项,选择一个选项对象。该应用程序只列出MATLAB工作区中兼容的选项对象。
应用程序配置代理选项以匹配所选选项对象中的选项。
编辑演员和评论家
您可以编辑每个代理的参与者和评论家的属性。
DQN代理只有一个评论家网络。
DDPG和PPO的代理商有一个演员和一个评论家。
TD3特工有一个演员和两个评论家。当您修改TD3代理的评论家选项时,更改适用于两个评论家。
您还可以从MATLAB工作区导入参与者和评论家。有关创建演员和评论家的更多信息,请参见创建策略和值函数.中导出的演员和评论家也可以导入强化学习设计师应用程序。
要引进一个演员或评论家,就相应的代理选项卡上,单击进口.然后,在演员或评论家,选择具有与代理规范兼容的操作和观察规范的参与者或批评对象。
应用程序将代理中现有的演员或评论家替换为所选的演员或评论家。如果您为TD3代理导入了一个评论家,应用程序将替换两个评论家的网络。
修改深度神经网络
要为演员或评论家使用非默认深度神经网络,必须从MATLAB工作区导入网络。一种常见的策略是导出默认的深度神经网络,使用深度网络设计器App,然后把它导入强化学习设计师.有关为演员和评论家创建深度神经网络的更多信息,请参见创建策略和值函数.
导入深度神经网络,就相应了代理选项卡上,单击进口.然后,在Actor神经网络或神经网络,选择输入和输出层与智能体的观察和动作规范兼容的网络。
该应用程序取代了相应行动者或代理中的深度神经网络。如果您为TD3代理导入了评论家网络,应用程序将替换两个评论家的网络。
导出代理和代理组件
对于给定的代理,您可以将以下任何内容导出到MATLAB工作区。
代理
剂的选择
演员或评论家
深层神经网络在演员或评论家
要导出代理或代理组件,请在相应的代理选项卡上,单击出口.然后,选择要导出的项。
应用程序在MATLAB工作区中保存代理或代理组件的副本。