政策和价值功能
定义策略和值函数表示,如深度神经网络和Q表
强化学习策略是一种映射,它根据对环境的观察选择要采取的行动。在训练过程中,智能体调整其策略表示的参数以最大化长期奖励。
强化学习工具箱™软件为演员和评论家提供对象表示。参与者表示选择要采取的最佳操作的策略。批评家代表了评估当前政策价值的价值函数。根据您的应用程序和选择的代理,您可以使用深度神经网络、线性基函数或查找表定义策略和值函数。有关更多信息,请参见创建策略和值函数表示.
功能
创建表示
rlValueRepresentation |
强化学习代理的价值函数批评表示 |
rlQValueRepresentation |
强化学习智能体的q值函数批评表示 |
rlDeterministicActorRepresentation |
强化学习代理的确定性行为者表示 |
rlStochasticActorRepresentation |
用于强化学习代理的随机角色表示 |
rlRepresentationOptions |
为强化学习代理表示设置的选项(批评者和参与者) |
rlTable |
值表或Q表 |
深度神经网络层
quadraticLayer |
演员或评论家网络的二次层 |
scalingLayer |
演员或评论家网络的缩放层 |
softplusLayer |
演员或评论家网络的软加层 |
获取和设置代理表示
getActor |
从强化学习代理中获得参与者表示 |
setActor |
设置强化学习代理的参与者表示 |
getCritic |
从强化学习代理中获得评论家表示 |
setCritic |
设置强化学习代理的批评表示 |
getLearnableParameters |
从策略或值函数表示中获取可学习的参数值 |
setLearnableParameters |
设置策略或值函数表示的可学习参数值 |
getModel |
从策略或值函数表示中得到计算模型 |
setModel |
设置策略或值函数表示的计算模型 |
获取动作和值函数
getAction |
从给定环境观察的代理或参与者表示中获取动作 |
getValue |
得到估计值函数表示 |
getMaxQValue |
获得离散动作空间q值函数表示的最大状态值函数估计 |
主题
对MATLAB
Vous avez cliqué sur un lien qui对应à cette命令MATLAB:
倒exécuter la command, saisissez-la dans la fenêtre de command de MATLAB。Les navigateurs web ne 金宝appsupport pas Les command MATLAB。
您也可以从以下列表中选择一个网站:
如何获得最佳的网站性能
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。