撒尔沙代理- MATLAB和Simulink M金宝appathWorks德国 - 金宝app,下载188bet金宝搏,金宝搏官方网站

撒尔沙代理

撒尔沙算法是一个模范自由,在网上,在政策强化学习方法。撒尔沙代理是一个基于价值观的强化学习代理列车评论家估计返回或未来的回报。

更多信息在不同类型的强化学习代理,看看强化学习代理。

撒尔沙代理可以用下面的训练环境中观察和行动空间。

观察太空	行动空间
连续或离散	离散

撒尔沙代理使用下面的评论家表示。

评论家	演员
核反应能量函数评论家问(,)创建使用`rlQValueRepresentation`	撒尔沙代理不使用一个演员。

在培训期间,代理使用epsilon-greedy探索探索行动空间。在每个控制区间,代理的概率随机选择一个行动ϵ或选择一个行动贪婪地对值函数与概率1 -ϵ。这个贪婪的行动的行动值函数是最大的。

估计价值函数,撒尔沙代理维护一个评论家问(年代,一个),这是一个表或函数估计值。评论家需要观察年代和行动一个作为输入,并返回相应的预期的长期回报。

更多信息为价值创造批评者函数近似,明白了创建政策和价值函数表示。

当完成训练,训练有素的价值函数近似者存储在评论家问(年代,一个)。

创建一个撒尔沙代理:

撒尔沙代理使用下面的训练算法。配置训练算法,使用一个指定选项rlSARSAAgentOptions对象。

下载电子书