文档帮助中心文档
强化学习策略是一种映射,它根据对环境的观察选择要采取的行动。在训练期间,代理调整其策略表示的参数,以最大化长期回报。
强化学习工具箱™ 软件为参与者和评论家表示提供对象。参与者代表选择要采取的最佳操作的策略。批评家表示估计当前策略价值的价值函数。根据您的应用程序和所选代理,您可以使用深度神经网络、线性基函数或查找表定义策略和值函数。有关详细信息,请参阅创建策略和值函数表示.
全部展开
rlValueRepresentation
rlQValueRepresentation
决定论呈现
随机表示
rlRepresentationOptions
rlTable
二次层
缩放层
软杀伤
getActor
设置器
Get批评家
赛特评论家
getLearnableParameters
可设置参数
getModel
集合模型
getAction
getValue
getMaxQValue
创建策略和值函数表示
使用函数近似器(如深度神经网络)指定策略和值函数表示。
导入策略和值函数表示法
您可以使用ONNX从其他深度学习框架导入现有策略™ 模型格式。
您单击了与此MATLAB命令对应的链接:
通过在MATLAB命令窗口中输入命令来运行该命令。Web浏览器不支持MATLAB命令。金宝app
选择一个网站以获取翻译后的内容(如果可用),并查看本地活动和优惠。根据您的位置,我们建议您选择:.
您还可以从以下列表中选择网站:
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家/地区网站未针对您所在地的访问进行优化。
联系当地办事处