主要内容

政策和价值功能

定义策略和值函数表示,如深度神经网络和Q表

强化学习策略是一种映射,它根据对环境的观察选择要采取的行动。在训练过程中,智能体调整其策略表示的参数以最大化长期奖励。

强化学习工具箱™软件为演员和评论家提供对象表示。参与者表示选择要采取的最佳操作的策略。批评家代表了评估当前政策价值的价值函数。根据您的应用程序和选择的代理,您可以使用深度神经网络、线性基函数或查找表定义策略和值函数。有关更多信息,请参见创建策略和值函数表示

功能

全部展开

rlValueRepresentation 强化学习代理的价值函数批评表示
rlQValueRepresentation 强化学习智能体的q值函数批评表示
rlDeterministicActorRepresentation 强化学习代理的确定性行为者表示
rlStochasticActorRepresentation 用于强化学习代理的随机角色表示
rlRepresentationOptions 为强化学习代理表示设置的选项(批评者和参与者)
rlTable 值表或Q表
quadraticLayer 演员或评论家网络的二次层
scalingLayer 演员或评论家网络的缩放层
softplusLayer 演员或评论家网络的软加层
getActor 从强化学习代理中获得参与者表示
setActor 设置强化学习代理的参与者表示
getCritic 从强化学习代理中获得评论家表示
setCritic 设置强化学习代理的批评表示
getLearnableParameters 从策略或值函数表示中获取可学习的参数值
setLearnableParameters 设置策略或值函数表示的可学习参数值
getModel 从策略或值函数表示中得到计算模型
setModel 设置策略或值函数表示的计算模型
getAction 从给定环境观察的代理或参与者表示中获取动作
getValue 得到估计值函数表示
getMaxQValue 获得离散动作空间q值函数表示的最大状态值函数估计

主题

创建策略和值函数表示

使用函数逼近器(如深度神经网络)指定策略和值函数表示。

导入策略和值函数表示

您可以使用ONNX™模型格式从其他深度学习框架导入现有策略。