使用强化学习设计师创建代理
的强化学习设计应用程序金宝app支持以下类型的代理。
深Q-Network代理(DQN)
深决定性策略梯度代理(DDPG)
近端政策优化代理(PPO)
信赖域策略优化代理(TRPO)
培训代理使用强化学习设计,您必须首先创建或者导入一个环境。有关更多信息,请参见为强化学习设计师创建MATLAB环境中和为强化学习设计金宝app师创建仿真软件环境。
创建代理
创建一个代理,强化学习选项卡,代理部分中,点击新。
在创建代理对话框中,指定以下信息。
代理名称——指定代理的名称。
环境-选择您先前创建的环境或进口。
兼容的算法——选择一个代理训练算法。该列表只包含算法兼容环境选择。
的强化学习设计应用程序创建代理与演员和批评基于默认深层神经网络。您可以指定以下选项为默认网络。
隐藏的数量单位-指定数量的单位在每个演员和评论家的全连通或LSTM层网络。
使用递归神经网络——选择这个选项创建演员兼评论家与递归神经网络,包含一个LSTM层。
创建代理,点击好吧。
应用程序添加新的默认代理的代理面板和打开一个文档进行编辑代理选项。
进口代理商
你也可以从MATLAB进口代理®工作空间到强化学习设计。这样做,强化学习选项卡上,单击进口。然后,在选择代理,选择代理进口。
应用程序添加新的进口代理的代理面板和打开一个文档进行编辑代理选项。
编辑代理选项
在强化学习设计,您可以编辑文档代理选项在相应的代理。
您可以编辑以下选项为每个代理。
剂的选择——代理选项,如样本时间和折现系数。为所有支持代理类型指定这些选项。金宝app
探索模型——探索模型的选择。PPO代理没有探索模式。
目标政策平滑模型-选择目标政策平滑,只支持TD3代理。金宝app
关于这些选项的更多信息,请参阅相应的代理选择对象。
rlDQNAgentOptions
——DQN代理选项rlDDPGAgentOptions
——DDPG代理选项rlTD3AgentOptions
——TD3代理选项rlPPOAgentOptions
- PPO代理选项
你可以从MATLAB工作区进口代理商的选择。为每种类型的代理创建选项,使用前面的对象之一。你也可以导入您先前的导出选项强化学习设计应用程序
导入选项,对应代理选项卡上,单击进口。然后,在选项对象,选择一个选项。MATLAB的应用列表只兼容的选择对象的工作区。
应用程序配置代理选项来选择相匹配的选择对象。
编辑演员和评论家
您可以编辑的属性每个代理的演员兼评论家。
DQN代理刚刚批评网络。
DDPG和PPO代理有一个演员和一个评论家。
TD3代理有一个演员和两个批评。当你修改TD3代理的评论家选项,更改适用于批评。
你也可以导入演员和批评家从MATLAB工作区。创建演员和批评家的更多信息,见创建政策和价值功能。你还可以导入演员和评论家以前出口的强化学习设计应用程序。
导入一个演员或评论家,在相应的代理选项卡上,单击进口。然后,在演员或评论家,选择一个演员或批评对象的动作和观测规范兼容的规范代理。
应用程序取代了现有的演员或评论家与所选择的一个代理。如果你导入一个评论家TD3代理,应用取代了网络的批评。
修改深层神经网络
使用默认的深层神经网络对一个演员或评论家,您必须导入网络从MATLAB工作区。一个常见的策略是出口默认深层神经网络,使用修改它深层网络设计师应用程序,然后重新导入强化学习设计。更多信息为演员和批评,创造深层神经网络创建政策和价值功能。
进口深神经网络,在相应的代理选项卡上,单击进口。然后,在演员神经网络或评论家神经网络与输入和输出层,选择一个网络兼容的观察和行动规范的代理。
应用程序取代了深层神经网络在相应的演员或代理人。如果你导入一个评论家TD3代理网络的应用取代了网络批评。
出口代理和代理组件
对于一个给定的代理,你可以导出下列MATLAB工作区。
代理
剂的选择
演员或批评
深层神经网络在演员或评论家
出口代理或代理组件,在相应的代理选项卡上,单击出口。然后,选择出口项目。
应用程序保存一份代理或代理组件在MATLAB工作区中。