主要内容

政策和价值功能

定义策略和值函数表示,如深度神经网络和Q表

强化学习策略是一种映射,它根据对环境的观察选择要采取的行动。在训练期间,代理调整其策略表示的参数,以最大化长期回报。

强化学习工具箱™ 软件为参与者和评论家表示提供对象。参与者代表选择要采取的最佳操作的策略。批评家表示估计当前策略价值的价值函数。根据您的应用程序和所选代理,您可以使用深度神经网络、线性基函数或查找表定义策略和值函数。有关详细信息,请参阅创建策略和值函数表示.

功能

全部展开

rlValueRepresentation 强化学习agent的价值函数批评表示
rlQValueRepresentation 强化学习agent的Q值函数批评表示
决定论呈现 强化学习代理的确定性参与者表示
随机表示 强化学习代理的随机参与者表示
rlRepresentationOptions 强化学习代理表示的选项集(批评者和参与者)
rlTable 值表或Q表
二次层 演员或评论家网络的二次层
缩放层 演员或评论家网络的缩放层
软杀伤 演员或评论家网络的Softplus层
getActor 从强化学习代理获取参与者表示
设置器 强化学习agent的集参与者表示
Get批评家 从强化学习代理获取批评表示
赛特评论家 强化学习agent的集批评表示
getLearnableParameters 从策略或值函数表示中获取可学习的参数值
可设置参数 设置策略或值函数表示的可学习参数值
getModel 从策略或值函数表示获取计算模型
集合模型 为策略或值函数表示设置计算模型
getAction 从给定环境观察的代理或参与者表示中获取操作
getValue 获得估计值函数表示
getMaxQValue 离散作用空间Q值函数表示的最大状态值函数估计

话题

创建策略和值函数表示

使用函数近似器(如深度神经网络)指定策略和值函数表示。

导入策略和值函数表示法

您可以使用ONNX从其他深度学习框架导入现有策略™ 模型格式。