政策与价值功能

定义策略和值函数表示，例如深度神经网络和Q表

强化学习策略是一种映射，可以根据环境的观察选择要采取的操作。在培训期间，代理调整其策略表示的参数，以最大限度地提高长期奖励。

Reinforcement Learning Toolbox™软件为actor和critical representation提供对象。参与者代表选择最佳行动的策略。批评家代表价值函数，估计当前政策的价值。根据您的应用程序和选择的代理，您可以使用深度神经网络、线性基函数或查找表定义策略和值函数。有关更多信息，请参见创建策略和值函数表示。

功能

全部展开

创建表示

`rlValueRepresentation`	强化学习代理的价值函数批评表示
`rlQValueRepresentation`	强化学习代理的q值函数批评表示
`rlDeterministicActorRepresentation`	强化学习主体的确定性行动者表示
`rlStochasticActorRepresentation`	强化学习主体的随机行为者表示
`rlRepresentationOptions`	为强化学习代理表示(批评者和参与者)设置的选项
`rlTable`	值表或Q表

深神经网络层

`quadraticLayer`	二次层为演员或评论家网络
`scalingLayer`	演员或评论家网络的缩放层
`softplusLayer`	软加层为演员或评论家网络

获取并设置代理表示

`getActor`	从强化学习agent中获取行动者表征
`setActor`	设置钢筋学习代理的演员代表
`getCritic`	从强化学习agent中得到批评的表示
`setCritic`	设置强化学习agent的批评表示
`getLearnableParameters`	从策略或值函数表示中获取可学习的参数值
`setLearnableParameters`	设置策略或值函数表示的可学习参数值
`getModel`	从策略或价值函数表示获取计算模型
`setModel`	为策略或值函数表示设置计算模型

获取操作和价值函数

`getAction`	从给定的环境观察结果的代理或参与者表示中获得行动
`getValue`	获得估计值函数表示
`getMaxQValue`	对具有离散动作空间的q值函数表示，获得最大状态值函数估计

主题

创建策略和值函数表示

使用函数近似器(如深度神经网络)指定策略和值函数表示。

导入策略和价值函数表示

您可以使用ONNX™模型格式从其他深度学习框架导入现有策略。

强化学习工具箱文档

金宝app

强化学习的MATLAB和Simulink金宝app

下载电子书