在指定的环境中训练强化学习代理
火车
随着培训的进行,更新代理。为了保存原始的代理参数供以后使用,请将代理保存到一个mat文件中。
默认情况下,调用火车
打开钢筋学习剧集管理器,允许您可视化培训的进度。Episode Manager Plot显示每个剧集,运行平均奖励价值和批评估计的奖励问0(对于具有批评者的代理人)。Episode Manager还显示各种剧集和培训统计数据。要关闭钢筋学习剧集管理器,请设置情节
选择训练
到“没有任何”
.
如果您使用有可视化的预定义环境,则可以使用情节(env)
可视化环境。如果你打电话情节(env)
在培训之前,然后在培训期间可视化更新,允许您可视化每个集的进度。(对于自定义环境,必须实现自己的环境情节
方法。)
中规定的条件终止培训训练
满意。要终止正在进行的培训,请在加强学习集团管理器中,单击停止培训.因为火车
每集更新代理,您可以通过呼叫恢复培训火车(代理人,env,训练)
同样,在第一次呼叫期间没有丢失训练有素的参数火车
.
在培训期间,您可以保存满足指定条件的候选代理训练
.例如,即使尚未满足终止培训的整体条件,您还可以保存剧集奖励超出某个值的任何代理。火车
将保存的代理存储在您指定的文件夹中的MAT文件中训练
.保存的代理可能很有用,例如,它允许您测试在长时间运行的培训过程中生成的候选代理。保存条件和保存位置请参见rltringOptions.
.
一般来说,火车
执行以下迭代步骤:
初始化代理人
.
每集:
重置环境。
获得初始观察年代0来自环境。
计算初始操作一个0=μ.(年代0)。
将当前操作设置为初始操作(一个←一个0)并将当前观察设置为初始观察(年代←年代0)。
虽然剧集未完成或终止:
使用动作步骤环境一个获得下一个观察年代'和奖励r.
从体验集中学习(年代,一个,r,年代')。
计算下一个动作一个'=μ.(年代')。
使用下一个操作更新当前操作(一个←一个'),并将当前的观测值更新为下一个观测值(年代←年代')。
如果满足环境中定义的剧集终端条件,则打破。
如果训练终止条件定义为训练
满足,终止培训。否则,开始下一个剧集。
具体情况火车
执行这些计算取决于您的代理和环境的配置。例如,如果配置环境,则重置每个剧集开始时的环境可以包括随机化初始状态值。