文档帮助中心文档
强化学习策略是一种映射,它根据对环境的观察选择要采取的行动。在训练期间,代理调整其策略表示的参数,以最大化长期回报。
Reinforcement Learning Toolbox™软件为演员和评论家表示提供对象。行动者代表选择最佳行动的策略。评论家代表了评估当前政策价值的价值函数。根据您的应用程序和选择的代理,您可以使用深度神经网络、线性基函数或查询表定义策略和值函数。有关更多信息,请参见创建策略和价值功能表示.
全部展开
rlValueRepresentation
rlQValueRepresentation
rlDeterministicActorRepresentation
rlStochasticActorRepresentation
rlRepresentationOptions
rlTable
quadraticLayer
scalingLayer
softplusLayer
getActor
setActor
getCritic
setCritic
getLearnableParameters
setLearnableParameters
getModel
setModel
getAction
getValue
getMaxQValue
创建策略和价值功能表示
使用函数近似器(如深度神经网络)指定策略和值函数表示。
导入策略和价值功能表示
您可以使用ONNX™模型格式从其他深度学习框架导入现有策略。
次のMATLABコマンドに対応するリンクがクリックされました。
コマンドをMATLABコマンドウィンドウに入力して実行してください。WebブラウザーはMATLABコマンドをサポートしていません。
选择一个网站,在那里获得翻译的内容,并看到当地的活动和优惠。根据您的位置,我们建议您选择:.
你也可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。
与当地办事处联系