文档帮助中心
强化学习策略是一种映射,可以根据环境的观察选择要采取的操作。在培训期间,代理调整其策略表示的参数,以最大限度地提高长期奖励。
Reinforcement Learning Toolbox™软件为actor和critical representation提供对象。参与者代表选择最佳行动的策略。批评家代表价值函数,估计当前政策的价值。根据您的应用程序和选择的代理,您可以使用深度神经网络、线性基函数或查找表定义策略和值函数。有关更多信息,请参见创建策略和值函数表示。
全部展开
rlValueRepresentation
rlQValueRepresentation
rlDeterministicActorRepresentation
rlStochasticActorRepresentation
rlRepresentationOptions
rlTable
quadraticLayer
scalingLayer
softplusLayer
getActor
setActor
getCritic
setCritic
getLearnableParameters
setLearnableParameters
getModel
setModel
getAction
getValue
getMaxQValue
创建策略和值函数表示
使用函数近似器(如深度神经网络)指定策略和值函数表示。
导入策略和价值函数表示
您可以使用ONNX™模型格式从其他深度学习框架导入现有策略。
它与一个缠绕对应一个MATLAB的comando:
把司令官赶出introduciéndolo在MATLAB的司令官ventana上。洛斯navegadores网站禁止MATLAB的士兵进入。
选择一个网站,在可用的地方获得翻译内容,并查看本地事件和优惠。根据您的位置,我们建议您选择:。
您也可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳的网站性能。其他MathWorks国家网站没有针对您所在位置的访问进行优化。
联系当地办事处