主要内容

政策和价值功能

定义策略和值函数表示,如深度神经网络和Q表

强化学习策略是一种映射,它根据对环境的观察选择要采取的行动。在训练过程中,智能体调整其策略表示的参数以最大化长期奖励。

强化学习工具箱™软件为演员和评论家提供对象表示。参与者表示选择要采取的最佳操作的策略。批评家代表了评估当前政策价值的价值函数。根据您的应用程序和选择的代理,您可以使用深度神经网络、线性基函数或查找表定义策略和值函数。有关更多信息,请参见创建策略和值函数

功能

全部展开

rlTable 值表或Q表
rlValueFunction 强化学习代理的值函数逼近对象
rlQValueFunction 强化学习代理的q值函数逼近对象
rlVectorQValueFunction 向量q值函数逼近强化学习代理
rlContinuousDeterministicActor 具有连续动作空间的确定性行为体用于强化学习代理
rlDiscreteCategoricalActor 具有离散动作空间的随机分类actor强化学习代理
rlContinuousGaussianActor 一种具有连续动作空间的随机高斯体强化学习代理
rlOptimizerOptions 演员和评论家的优化选项
quadraticLayer 演员或评论家网络的二次层
scalingLayer 演员或评论家网络的缩放层
softplusLayer 演员或评论家网络的软加层
featureInputLayer 特征输入层
reluLayer 整流线性单元(ReLU)层
tanhLayer 双曲正切(tanh)层
fullyConnectedLayer 全连接层
lstmLayer 长短期记忆层
softmaxLayer Softmax层
getActor 从强化学习代理中得到actor
setActor 强化学习代理的集合角色
getCritic 从强化学习代理获得评论家
setCritic 强化学习代理集评论家
getLearnableParameters 从actor或批评家函数对象中获取可学习的参数值
setLearnableParameters 设置actor或批评家函数对象的可学习参数值
getModel 从演员或评论家那里得到函数逼近器
setModel 为演员或评论家设置函数逼近器
getAction 给定环境观测,从代理或行动者获得动作
getValue 根据环境观察和行动,从评论家那里获得估计值
getMaxQValue 在给定环境观测的情况下,从具有离散动作空间的q值函数评论家获得所有可能动作的最大估计值
评估 根据观察(或观察-动作)输入数据计算函数逼近器对象
梯度 给定观测和动作输入数据,求函数逼近对象的梯度
加速 基于神经网络加速逼近对象梯度计算的选项

主题