政策与价值功能

定义策略和值函数表示，如深度神经网络和Q表

强化学习策略是一种映射，可以根据环境的观察选择要采取的操作。在培训期间，代理商调整其政策表示的参数，以最大限度地提高长期奖励。

强化学习工具箱™软件为演员和评论家表示提供对象。参与者代表选择要采取的最佳操作的策略。批评家代表了评估当前政策价值的价值函数。根据您的应用程序和所选的代理，您可以使用深度神经网络、线性基函数或查找表定义策略和值函数。有关更多信息，请参见创建策略和值函数表示．

功能

`rlValueRepresentation`	强化学习主体的价值函数批判表示
`rlQValueRepresentation`	强化学习主体的q值函数批判表示
`rlDeterministicActorRepresentation`	强化学习代理的确定性行动者表示
`rlStochasticActorRepresentation`	强化学习代理的随机行动者表示
`rlRepresentationOptions`	为强化学习代理表示设置的选项(评论家和演员)
`rlTable`	值表或Q表

`getAction`	根据给定的环境观察，从代理或参与者表示中获得动作
`getValue`	获得估计值函数表示
`getMaxQValue`	得到离散作用空间下q值函数表示的最大状态值函数估计

使用函数逼近器(如深度神经网络)指定策略和值函数表示。

您可以使用ONNX™模型格式从其他深度学习框架导入现有策略。

下载电子书