文件帮助中心文件
设置钢筋学习代理人的演员代表
newagent = setAttor(OldAgent,演员)
例子
newagent.= setAttor(老年人那演员的)返回一个新的强化学习代理,newagent.,使用指定的演员表示。除了actor表示,新代理与指定的原始代理具有相同的配置,老年人。
newagent.= setAttor(老年人那演员的)
newagent.
老年人
演员
全部收缩
假设您拥有现有的培训钢筋学习代理。对于此示例,从培训的代理商加载火车DDPG代理控制双积分系统。
加载('doupleintegddpg.mat'那'代理人'的)
从代理商中获取演员表示。
Actor = GetAttor(代理);
从演员获取学习参数。
Params = GetLearnableParameters(演员);
修改参数值。对于此示例,简单地将所有参数乘以2。
2
ModifiedParams = Cellfun(@(x)x * 2,params,'统一输出',错误的);
将Actor的参数值设置为新的修改值。
Actor = SetLearnableParameters(演员,ModifiedParams);
将代理中的演员设置为新修改的演员。
代理= setAttor(代理商,演员);
创建具有连续动作空间的环境,并获得其观察和操作规范。对于此示例,请加载示例中使用的环境火车DDPG代理控制双积分系统。
加载预定义的环境。
ent = rlpredefinedenv(“双凝集器连续”的)
Env =双凝胶组连续性与属性:增益:1 TS:0.1000 Maxdistance:5守队列:0.0100 Q:[2x2 DOUBLE] R:0.0100 Maxiforce:INF状态:[2x1双]
获得观察和行动规范。
ObsInfo = GetobservationInfo(ENV);Actinfo = GetActionInfo(Env);
从环境观察和行动规范中创建PPO代理。
代理= rlppoagent(Obsinfo,Actinfo);
要修改钢筋内的深神经网络,必须首先提取演员和批评者表示。
Actor = GetAttor(代理);评论家=克理克里数据(代理人);
从演员和批评者表示中提取深神经网络。
ACTORNET = GETMODEL(演员);批评= getModel(评论家);
网络是dlnetwork.对象。使用它来查看它们阴谋功能,必须将它们转换为分层图对象。
dlnetwork.
阴谋
分层图
例如,查看actor网络。
绘图(层图(ActorRounet))
验证网络,使用分析。例如,验证批评网络。
分析
分析(批评)
您可以修改演员和批评网络并将其保存回代理。要修改网络,您可以使用深网络设计师应用程序。要为每个网络打开应用程序,请使用以下命令。
DeepNetWorkDesigner(LayerGraph(批评))DeepNetWorkDesigner(图层图(ActorRounet))
在深网络设计师,修改网络。例如,您可以向您的网络添加其他图层。修改网络时,请勿更改返回的网络的输入和输出层GetModel.。有关建筑网络的更多信息,请参阅构建具有深度网络设计师的网络。
GetModel.
验证修改后的网络深网络设计师,您必须点击分析DLNETWORK., 在下面分析部分。要将修改的网络结构导出到MATLAB®工作区,请生成用于创建新网络的代码并从命令行运行此代码。请勿使用导出选项深网络设计师。有关展示如何生成和运行代码的示例,请参阅使用深网络设计师创建代理和使用图像观察。
在此示例中,用于创建修改后的演员和批评网络的代码CreateModifiedNetWorks.m.。
CreateModifiedNetWorks.m.
CreateModifiedNetWorks.
每个修改的网络都包括额外的网络全康无经和剥离在他们的输出路径中。查看修改后的actor网络。
全康无经
剥离
绘图(ModifiedActornet)
导出网络后,将网络插入演员和批评者表示。
Actor = SetModel(演员,ModifiedActornet);评论家= setmodel(批评者,修改克里米特);
最后,在演员和批评者中插入修改的演员和批评者表示。
代理= setAttor(代理商,演员);代理= setcritic(代理商,批评者);
rlddpgagent.
rltd3agent.
rlpgagent.
rlacagent.
rlppoagent.
包含演员表示的强化学习代理,指定为以下之一:
rlddpgagent.目的
rltd3agent.目的
rlacagent.目的
rlpgagent.目的
rlppoagent.目的
rlsacagent.目的
rlsacagent.
RLDETerminyActorRepresentation
rlstochastorrepresentation
Actor表示对象,指定为以下之一:
RLDETerminyActorRepresentation对象 - 指定何时代理人是一个rlddpgagent.或者rltd3agent.目的
代理人
rlstochastorrepresentation对象 - 指定何时代理人是一个rlacagent.那rlpgagent., 或者rlppoagent.目的
指定表示的输入和输出层必须匹配原始代理的观察和操作规范。
要创建策略或value函数表示,请使用以下方法之一:
使用相应的表示对象创建表示。
从代理商中获取现有的策略表示工作者。
工作者
更新的钢筋学习代理,作为使用指定的Actor表示的代理对象返回。除了演员表示外,新代理的配置与老年人。
工作者|克里克里条件|setcritic.|GetModel.|setmodel.|GetlearnableParameters.|setlearnableParameters.
克里克里条件
setcritic.
setmodel.
GetlearnableParameters.
setlearnableParameters.
Sie Haben EineGeänderte版Dieses Beispiels。MöchtenSieDieses Beispiel Mit IhrenÄnderungenÖffnen?
Sie Haben AUF EINEN LINK GEKLICKT,DER DIESEM MATLAB-BEFEHL ONTSPRICHT:
Führensieden befehl Durch Eingabe在Das Matlab-Befehlsfenster Aus。WebBrowserUnterstützenkeine matlab-befehle。
选择一个网站,以便在可用的地方进行翻译内容,并查看本地活动和优惠。根据您的位置,我们建议您选择:。
您还可以从以下列表中选择一个网站:
选择中国网站(以中文或英文)以获得最佳网站性能。其他MathWorks国家网站未优化您所在地的访问。
联系您当地的办公室