主要内容

政策和价值函数

定义策略和值函数表示,例如深神经网络和Q表

强化学习策略是一种映射,可以根据环境的观察选择要采取的操作。在培训期间,代理商调整其政策表示的参数,以最大限度地提高长期奖励。

强化学习工具箱™软件为演员和批评者提供的对象提供了对象。actor表示选择最佳采取行动的策略。批评者表示估计当前策略值的值函数。根据您的应用程序和选定的代理,您可以使用深神经网络,线性基本功能或查找表定义策略和值函数。有关更多信息,请参阅创建策略和值函数表示

职能

展开全部

rlvaluerepresentation 增强学习代理的价值函数评论家代表
rlqvalueerepresentation Q-Value Function评论家为加固学习代理商表示
RLDETerminyActorRepresentation 钢筋学习代理的确定性演员代表
rlstochastorrepresentation 加固学习代理的随机演员代表
rlrepresentationOptions. 用于强化学习代理商的选项(批评者和演员)
rltable. 值表或Q表
QuadraticLayer. 用于演员或批评网络的二次层
ScalingLayer. 演员或批评网络的缩放层
softplusLayer 用于演员或批评网络的SoftPlus层
工作者 获取钢筋学习代理人的演员代表
setActor. 设置钢筋学习代理人的演员代表
克里克里条件 从加强学习代理获得批评批评意见
setcritic. 设定批评钢筋学习代理人的代表
GetlearnableParameters. 从策略或value函数表示中获取可知的参数值
setlearnableParameters. 设置策略或value函数表示的学习参数值
GetModel. 从策略或价值函数表示获取计算模型
setmodel. 设置策略或值函数表示的计算模型
努力 从代理商或演员代表获取行动给定环境观察
getValue 获取估计值函数表示
getmaxqvalue. 使用离散动作空间获取Q值函数表示的最大状态值函数估计

话题

创建策略和值函数表示

使用函数近似器指定策略和值函数表示,例如深神经网络。

导入策略和价值函数表示

您可以使用Onnx™模型格式从其他深度学习框架导入现有策略。