政策和价值功能
定义策略和值函数表示,如深度神经网络和Q表
强化学习策略是一种映射,它根据对环境的观察选择要采取的行动。在训练过程中,智能体调整其策略表示的参数以最大化长期奖励。
强化学习工具箱™软件为演员和评论家提供对象表示。参与者表示选择要采取的最佳操作的策略。批评家代表了评估当前政策价值的价值函数。根据您的应用程序和选择的代理,您可以使用深度神经网络、线性基函数或查找表定义策略和值函数。有关更多信息,请参见创建策略和值函数.
功能
创造演员和评论家
rlTable |
值表或Q表 |
rlValueFunction |
强化学习代理的值函数逼近对象 |
rlQValueFunction |
强化学习代理的q值函数逼近对象 |
rlVectorQValueFunction |
向量q值函数逼近强化学习代理 |
rlContinuousDeterministicActor |
具有连续动作空间的确定性行为体用于强化学习代理 |
rlDiscreteCategoricalActor |
具有离散动作空间的随机分类actor强化学习代理 |
rlContinuousGaussianActor |
一种具有连续动作空间的随机高斯体强化学习代理 |
演员和评论家的培训选择
rlOptimizerOptions |
演员和评论家的优化选项 |
深度神经网络层
quadraticLayer |
演员或评论家网络的二次层 |
scalingLayer |
演员或评论家网络的缩放层 |
softplusLayer |
演员或评论家网络的软加层 |
featureInputLayer |
特征输入层 |
reluLayer |
整流线性单元(ReLU)层 |
tanhLayer |
双曲正切(tanh)层 |
fullyConnectedLayer |
全连接层 |
lstmLayer |
长短期记忆层 |
softmaxLayer |
Softmax层 |
获取和设置演员和评论家参数
getActor |
从强化学习代理中得到actor |
setActor |
强化学习代理的集合角色 |
getCritic |
从强化学习代理获得评论家 |
setCritic |
强化学习代理集评论家 |
getLearnableParameters |
从actor或批评家函数对象中获取可学习的参数值 |
setLearnableParameters |
设置actor或批评家函数对象的可学习参数值 |
getModel |
从演员或评论家那里得到函数逼近器 |
setModel |
为演员或评论家设置函数逼近器 |
MATLAB突击队
Ha hecho clic en unenlace que对应一个este commando de MATLAB:
弹射突击队introduciéndolo en la ventana de commandos de MATLAB。Los navegadores web no permission comandos de MATLAB。
您也可以从以下列表中选择一个网站:
如何获得最佳的网站性能
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。