文档帮助中心文档
强化学习策略是一种映射,可以根据环境的观察选择要采取的操作。在培训期间,代理商调整其政策表示的参数,以最大限度地提高长期奖励。
强化学习工具箱™软件为演员和评论家表示提供对象。参与者代表选择要采取的最佳操作的策略。批评家代表了评估当前政策价值的价值函数。根据您的应用程序和所选的代理,您可以使用深度神经网络、线性基函数或查找表定义策略和值函数。有关更多信息,请参见创建策略和值函数表示.
全部展开
rlValueRepresentation
rlQValueRepresentation
rlDeterministicActorRepresentation
rlStochasticActorRepresentation
rlRepresentationOptions
rlTable
quadraticLayer
scalingLayer
softplusLayer
getActor
setActor
getCritic
setCritic
getLearnableParameters
setLearnableParameters
getModel
setModel
getAction
getValue
getMaxQValue
创建策略和值函数表示
使用函数逼近器(如深度神经网络)指定策略和值函数表示。
导入策略和价值函数表示
您可以使用ONNX™模型格式从其他深度学习框架导入现有策略。
Ha heccho clic en enlace对应于MATLAB的一个基本指令:
从MATLAB中喷出团队introduciéndolo。Los navegadores网站不允许使用MATLAB。
选择一个网站,在可用的地方获得翻译的内容,并查看当地的事件和提供。根据您所在的位置,我们建议您选择:.
您也可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站表现。其他MathWorks国家网站不适合从您的位置访问。
联系当地办事处