政策和价值功能

定义策略和值函数表示，如深度神经网络和Q表

强化学习策略是一种映射，它根据对环境的观察选择要采取的行动。在训练过程中，智能体调整其策略表示的参数以最大化长期奖励。

强化学习工具箱™软件为演员和评论家提供对象表示。参与者表示选择要采取的最佳操作的策略。批评家代表了评估当前政策价值的价值函数。根据您的应用程序和选择的代理，您可以使用深度神经网络、线性基函数或查找表定义策略和值函数。有关更多信息，请参见创建策略和值函数．

功能

`rlTable`	值表或Q表
`rlValueFunction`	强化学习代理的值函数逼近对象
`rlQValueFunction`	强化学习代理的q值函数逼近对象
`rlVectorQValueFunction`	向量q值函数逼近强化学习代理
`rlContinuousDeterministicActor`	具有连续动作空间的确定性行为体用于强化学习代理
`rlDiscreteCategoricalActor`	具有离散动作空间的随机分类actor强化学习代理
`rlContinuousGaussianActor`	一种具有连续动作空间的随机高斯体强化学习代理

rlOptimizerOptions 演员和评论家的优化选项

`getAction`	给定环境观测，从代理或行动者获得动作
`getValue`	根据环境观察和行动，从评论家那里获得估计值
`getMaxQValue`	在给定环境观测的情况下，从具有离散动作空间的q值函数评论家获得所有可能动作的最大估计值
`评估`	根据观察(或观察-动作)输入数据计算函数逼近器对象
`梯度`	给定观测和动作输入数据，求函数逼近对象的梯度
`加速`	基于神经网络加速逼近对象梯度计算的选项