文档帮助中心文档

政策和价值功能

定义策略和值函数表示，如深度神经网络和Q表

强化学习策略是一种映射，它根据对环境的观察选择要采取的行动。在训练过程中，智能体调整其策略表示的参数以最大化长期奖励。

强化学习工具箱™软件为演员和评论家提供对象表示。参与者表示选择要采取的最佳操作的策略。批评家代表了评估当前政策价值的价值函数。根据您的应用程序和选择的代理，您可以使用深度神经网络、线性基函数或查找表定义策略和值函数。有关更多信息，请参见创建策略和值函数表示．

功能

创建表示

`rlValueRepresentation`	强化学习代理的价值函数批评表示
`rlQValueRepresentation`	强化学习智能体的q值函数批评表示
`rlDeterministicActorRepresentation`	强化学习代理的确定性行为者表示
`rlStochasticActorRepresentation`	用于强化学习代理的随机角色表示
`rlRepresentationOptions`	为强化学习代理表示设置的选项(批评者和参与者)
`rlTable`	值表或Q表

深度神经网络层

`quadraticLayer`	演员或评论家网络的二次层
`scalingLayer`	演员或评论家网络的缩放层
`softplusLayer`	演员或评论家网络的软加层

获取和设置代理表示

`getActor`	从强化学习代理中获得参与者表示
`setActor`	设置强化学习代理的参与者表示
`getCritic`	从强化学习代理中获得评论家表示
`setCritic`	设置强化学习代理的批评表示
`getLearnableParameters`	从策略或值函数表示中获取可学习的参数值
`setLearnableParameters`	设置策略或值函数表示的可学习参数值
`getModel`	从策略或值函数表示中得到计算模型
`setModel`	设置策略或值函数表示的计算模型

获取动作和值函数

`getAction`	从给定环境观察的代理或参与者表示中获取动作
`getValue`	得到估计值函数表示
`getMaxQValue`	获得离散动作空间q值函数表示的最大状态值函数估计

主题

创建策略和值函数表示

使用函数逼近器(如深度神经网络)指定策略和值函数表示。

导入策略和值函数表示

您可以使用ONNX™模型格式从其他深度学习框架导入现有策略。

强化学习工具箱文档

金宝app

基于MATLAB和Simulink的强化学习金宝app

基于MATLAB和Simulink的强化学习金宝app

下载电子书