主要内容

政策与价值功能

定义策略和值函数表示,例如深度神经网络和Q表

强化学习策略是一种映射,可以根据环境的观察选择要采取的操作。在培训期间,代理调整其策略表示的参数,以最大限度地提高长期奖励。

Reinforcement Learning Toolbox™软件为actor和critical representation提供对象。参与者代表选择最佳行动的策略。批评家代表价值函数,估计当前政策的价值。根据您的应用程序和选择的代理,您可以使用深度神经网络、线性基函数或查找表定义策略和值函数。有关更多信息,请参见创建策略和值函数表示

功能

全部展开

rlValueRepresentation 强化学习代理的价值函数批评表示
rlQValueRepresentation 强化学习代理的q值函数批评表示
rlDeterministicActorRepresentation 强化学习主体的确定性行动者表示
rlStochasticActorRepresentation 强化学习主体的随机行为者表示
rlRepresentationOptions 为强化学习代理表示(批评者和参与者)设置的选项
rlTable 值表或Q表
quadraticLayer 二次层为演员或评论家网络
scalingLayer 演员或评论家网络的缩放层
softplusLayer 软加层为演员或评论家网络
getActor 从强化学习agent中获取行动者表征
setActor 设置钢筋学习代理的演员代表
getCritic 从强化学习agent中得到批评的表示
setCritic 设置强化学习agent的批评表示
getLearnableParameters 从策略或值函数表示中获取可学习的参数值
setLearnableParameters 设置策略或值函数表示的可学习参数值
getModel 从策略或价值函数表示获取计算模型
setModel 为策略或值函数表示设置计算模型
getAction 从给定的环境观察结果的代理或参与者表示中获得行动
getValue 获得估计值函数表示
getMaxQValue 对具有离散动作空间的q值函数表示,获得最大状态值函数估计

主题

创建策略和值函数表示

使用函数近似器(如深度神经网络)指定策略和值函数表示。

导入策略和价值函数表示

您可以使用ONNX™模型格式从其他深度学习框架导入现有策略。