文件帮助中心文件
强化学习策略是一种映射,它根据对环境的观察选择要采取的行动。在训练期间,代理调整其策略表示的参数,以最大化长期回报。
强化学习工具箱™软件为演员和批评者提供的对象提供。Actor表示选择最佳采取行动的策略。批评者表示估计当前策略值的值函数。根据您的应用程序和所选代理,您可以使用深神经网络,线性基本功能或查找表定义策略和值函数。有关更多信息,请参阅创建策略和值函数表示。
展开全部
rlvalueerepresentation
rlqvalueerepresentation
RLDETerminyActorRepresentation
rlstochastorrepresentation
rlrepresentationOptions.
rltable.
QuadraticLayer.
scalinglayer.
softpluslayer.
工作者
setActor.
透镜
setcritic.
GetLearnableParameters.
setlearnableparameters.
GetModel.
setmodel.
努力
GetValue.
getmaxqvalue.
创建策略和值函数表示
使用函数近似器指定策略和值函数表示,例如深神经网络。
导入策略和价值功能表示
您可以使用Onnx™模型格式从其他深度学习框架导入现有策略。
Hai Fatto Clic Su Un Collegamento Che Corlisponde A Questo Comando Matlab:
esegui il comando inserendolo nella finestra di comando matlab。我浏览Web非Spectsano i金宝app Comandi Matlab。
选择一个网站,以便在可用的地方进行翻译的内容,并查看本地活动和优惠。根据您的位置,我们建议您选择:。
您还可以从以下列表中选择一个网站:
选择中国网站(以中文或英文)以获取最佳网站性能。其他MathWorks国家网站未优化您的位置。
联系您当地的办公室