政策和价值函数

定义策略和值函数表示，例如深神经网络和Q表

强化学习策略是一种映射，可以根据环境的观察选择要采取的操作。在培训期间，代理调整其策略表示的参数，以最大限度地提高长期奖励。

强化学习工具箱™软件为演员和批评者提供的对象提供。Actor表示选择最佳采取行动的策略。批评者表示估计当前策略值的值函数。根据您的应用程序和所选代理，您可以使用深神经网络，线性基本功能或查找表定义策略和值函数。有关更多信息，请参阅创建策略和值函数表示。

功能

`rlvalueerepresentation`	增强学习代理的价值函数批评者表示
`rlqvalueerepresentation`	Q-Value Function评论家强化学习代理的代表
`RLDETerminyActorRepresentation`	钢筋学习代理的确定性演员代表
`rlstochastorrepresentation`	加固学习代理的随机演员代表
`rlrepresentationOptions.`	用于强化学习代理商的选项（批评者和演员）
`rltable.`	值表或Q表

`努力`	从代理商或演员代表获取行动给定环境观察
`GetValue.`	获取估计值函数表示
`getmaxqvalue.`	通过离散动作空间获取Q值函数表示的最大状态值函数估计

使用函数近似器指定策略和值函数表示，例如深神经网络。

您可以使用Onnx™模型格式从其他深度学习框架导入现有策略。

下载电子书