主要内容

政策和价值函数

定义策略和值函数表示,例如深神经网络和Q表

强化学习策略是一种映射,可以根据环境的观察选择要采取的操作。在培训期间,代理调整其策略表示的参数,以最大限度地提高长期奖励。

强化学习工具箱™软件为演员和批评者提供的对象提供。Actor表示选择最佳采取行动的策略。批评者表示估计当前策略值的值函数。根据您的应用程序和所选代理,您可以使用深神经网络,线性基本功能或查找表定义策略和值函数。有关更多信息,请参阅创建策略和值函数表示

功能

展开全部

rlvalueerepresentation 增强学习代理的价值函数批评者表示
rlqvalueerepresentation Q-Value Function评论家强化学习代理的代表
RLDETerminyActorRepresentation 钢筋学习代理的确定性演员代表
rlstochastorrepresentation 加固学习代理的随机演员代表
rlrepresentationOptions. 用于强化学习代理商的选项(批评者和演员)
rltable. 值表或Q表
QuadraticLayer. 演员或批评网络的二次层
scalinglayer. 演员或批评网络的缩放层
softpluslayer. 演员或批评网络的软普利层
工作者 获取钢筋学习代理人的演员代表
setActor. 设置钢筋学习代理的演员代表
透镜 获取钢筋学习代理人的批评奖学金
setcritic. 设定批评批评学习代理的代表
GetLearnableParameters. 从策略或value函数表示中获取从事参数值
setlearnableparameters. 设置策略或value函数表示的学习参数值
GetModel. 从策略或价值函数表示获取计算模型
setmodel. 设置策略或价值函数表示的计算模型
努力 从代理商或演员代表获取行动给定环境观察
GetValue. 获取估计值函数表示
getmaxqvalue. 通过离散动作空间获取Q值函数表示的最大状态值函数估计

主题

创建策略和值函数表示

使用函数近似器指定策略和值函数表示,例如深神经网络。

导入策略和价值函数表示

您可以使用Onnx™模型格式从其他深度学习框架导入现有策略。