文档帮助中心文档

政策和价值功能

定义策略和值函数表示，如深度神经网络和Q表

强化学习策略是一种映射，它根据对环境的观察选择要采取的行动。在训练期间，代理调整其策略表示的参数，以最大化长期回报。

强化学习工具箱™ 软件为参与者和评论家表示提供对象。参与者代表选择要采取的最佳操作的策略。批评家表示估计当前策略价值的价值函数。根据您的应用程序和所选代理，您可以使用深度神经网络、线性基函数或查找表定义策略和值函数。有关详细信息，请参阅创建策略和值函数表示.

功能

创建表示

`rlValueRepresentation`	强化学习agent的价值函数批评表示
`rlQValueRepresentation`	强化学习agent的Q值函数批评表示
`决定论呈现`	强化学习代理的确定性参与者表示
`随机表示`	强化学习代理的随机参与者表示
`rlRepresentationOptions`	强化学习代理表示的选项集（批评者和参与者）
`rlTable`	值表或Q表

深度神经网络层

`二次层`	演员或评论家网络的二次层
`缩放层`	演员或评论家网络的缩放层
`软杀伤`	演员或评论家网络的Softplus层

获取和设置代理表示

`getActor`	从强化学习代理获取参与者表示
`设置器`	强化学习agent的集参与者表示
`Get批评家`	从强化学习代理获取批评表示
`赛特评论家`	强化学习agent的集批评表示
`getLearnableParameters`	从策略或值函数表示中获取可学习的参数值
`可设置参数`	设置策略或值函数表示的可学习参数值
`getModel`	从策略或值函数表示获取计算模型
`集合模型`	为策略或值函数表示设置计算模型

获取操作和值函数

`getAction`	从给定环境观察的代理或参与者表示中获取操作
`getValue`	获得估计值函数表示
`getMaxQValue`	离散作用空间Q值函数表示的最大状态值函数估计

话题

创建策略和值函数表示

使用函数近似器（如深度神经网络）指定策略和值函数表示。

导入策略和值函数表示法

您可以使用ONNX从其他深度学习框架导入现有策略™ 模型格式。

强化学习工具箱文档

金宝app

基于MATLAB和Simulink的强化学习金宝app

基于MATLAB和Simulink的强化学习金宝app

下载电子书