Sarsa代理 - Matlab＆Simuli金宝appnk - Mathworks日本 - 金宝app,下载188bet金宝搏,金宝搏官方网站

萨拉代表

Sarsa算法是一种无模型，在线，策略的on-prodote加强学习方法。Sarsa代理是一家基于价值的强化学习代理，培训了批评批评，以估计回报或未来奖励。

有关不同类型的强化学习代理商的更多信息，请参阅加固学习代理人。

Sarsa代理商可以在具有以下观察和行动空间的环境中培训。

观察空间	行动空间
连续或离散	离散的

Sarsa代理商使用以下批评代表。

评论家	演员
Q值功能评论家问：（S.那一种），您创建使用`rlqvalueerepresentation`	Sarsa代理商不使用演员。

在培训期间，代理商使用epsilon-贪婪的探索来探讨动作空间。在每个控制间隔期间，代理要么具有概率的随机动作ε.或者在具有概率1-的值函数贪婪地选择一个动作 -ε.。这种贪婪的行动是价值函数最大的动作。

估计价值函数，萨拉代理人维持评论家问：（S.那一种），这是一个表或函数近似剂。评论家采取观察S.和行动一种作为输入并返回相应的长期奖励期望。

有关创建值函数近似的批评者的更多信息，请参阅创建策略和值函数表示。

培训完成后，培训的值函数近似器存储在评论家中问：（S.那一种）。

创建萨拉代表：

Sarsa代理使用以下培训算法。要配置培训算法，请使用arlsarsaagentoptions.目的。

下载电子书