软演员 - 评论家强化学习代理
软行为者-批评(SAC)算法是一种无模型、在线、非政策的行为者-批评强化学习方法。SAC算法计算一个最优策略,使长期预期回报和策略的熵最大化。政策熵是给定状态下政策不确定性的度量。更高的熵值促进更多的探索。奖励和熵的最大化平衡了对环境的探索和开发。
有关更多信息,请参阅软Actor-Critic代理.
有关不同类型的强化学习代理的更多信息,请参见强化学习代理.
为具有给定观察和操作规范的环境创建SAC代理。(代理
= rlsacagent(observationInfo
,actionInfo
)observationInfo
)及行动规格(actionInfo
).代理中的行动者和批评者使用默认的深度神经网络,这些神经网络是使用观察规范建立的observationInfo
和行为规范actionInfo
.
使用指定的初始化选项创建具有深度神经网络表示的SAC代理(代理
= rlsacagent(observationInfo
,actionInfo
,initoptions.
)initoptions.
).
设置代理
= rlsacagent(___,agentOptions
)AgentOptions
属性为以前的任何语法。
深网络设计师|rlAgentInitializationOptions
|rlSACAgentOptions
|rlstochastorrepresentation
|rlValueRepresentation