在强化学习场景中,您在培训代理完成任务的情况下,环境模拟了代理程序交互的动态。如下图所示,环境:
从代理商接收行动。
输出响应行动的观察。
生成奖励测量行动有助于实现任务的贡献。
创建环境模型包括定义以下内容:
操作和观察信号表示代理用于与环境交互。
奖励信号代理用于衡量其成功。有关更多信息,请参阅定义奖励信号。
环境动态行为。
创建环境对象时,必须指定代理用于与环境交互的操作和观察信号。您可以创建离散和连续操作空间。有关更多信息,请参阅rlnumericspec.
和rlfinitesetspec.
, 分别。
您选择的信号和观察的信号取决于您的应用程序。例如,对于控制系统应用,错误信号的积分(有时导数)通常是有用的观察。此外,对于参考跟踪应用,具有时变的参考信号作为观察是有帮助的。
定义观察信号时,请确保通过观察来观察所有系统状态。例如,摆动摆的图像观察具有位置信息,但没有足够的信息来确定摆速。在这种情况下,您可以将摆速指定为单独的观察。
钢筋学习工具箱™软件提供预定义的Simulink金宝app®在已经定义了操作,观察,奖励和动态的环境。您可以使用这些环境:
学习强化学习概念。
熟悉钢筋学习工具箱软件功能。
测试自己的强化学习代理。
有关更多信息,请参阅加载预定义的Simulink环境金宝app。
要指定自己的自定义增强学习环境,请使用一个模拟模型金宝appRL代理人堵塞。在此模型中,将动作,观察和奖励信号连接到RL代理人堵塞。例如,看到水箱加固学习环境模型。
对于动作和观察信号,您必须使用规范对象使用rlnumericspec.
用于连续信号和rlfinitesetspec.
用于离散信号。对于总线信号,使用创建规格bus2rlspec.
。
对于奖励信号,在模型中构建标量信号并将此信号连接到RL代理人堵塞。有关更多信息,请参阅定义奖励信号。
配置Simulink模型后,使用该模型创建一金宝app个环境对象Rl金宝appsimulinkenv.
功能。
如果您有一个具有适当动作输入端口,观察输出端口和标量奖励输出端口的参考模型,则可以自动创建包含此参考模型的Simulink模型和金宝appRL代理人堵塞。有关更多信息,请参阅CreateIntegrateenv.
。此函数返回模型的环境对象,操作规范和观察规范。
您的环境可以包括第三方功能。有关更多信息,请参阅与现有的模拟或环境集成(金宝appSimulink)。
CreateIntegrateenv.
|Rlpredefinedenv.
|Rl金宝appsimulinkenv.