在强化学习场景中,您训练代理完成任务,环境将模拟代理与之交互的动态。如下图所示,环境:
从代理接收操作。
根据行动输出观察结果。
生成一个奖励,衡量行动对完成任务的贡献程度。
创建环境模型包括定义以下内容:
代理用来与环境交互的动作和观察信号。
代理用来衡量其成功的奖励信号。有关详细信息,请参阅定义奖励信号.
环境动态行为。
创建环境对象时,必须指定代理用于与环境交互的操作和观察信号。可以创建离散和连续动作空间。有关详细信息,请参阅rlNumericSpec
和rlFiniteSetSpec
分别地
您选择什么信号作为操作和观察取决于您的应用程序。例如,对于控制系统应用,误差信号的积分(有时是导数)通常是有用的观测值。此外,对于参考跟踪应用,将时变参考信号作为观测值是有帮助的。
定义观测信号时,请确保所有系统状态都可以通过观测观察到。例如,摆动摆锤的图像观测具有位置信息,但没有足够的信息来确定摆锤速度。在这种情况下,可以将摆锤速度指定为单独的观测.
强化学习工具箱™ 软件提供预定义的Simulink金宝app®已经定义了行动、观察、奖励和动态的环境。您可以使用这些环境来:
学习强化学习概念。
熟悉强化学习工具箱软件功能。
测试您自己的强化学习代理。
有关详细信息,请参阅加载预定义的Simulink环境金宝app.
要指定自己的自定义强化学习环境,请使用金宝appRL试剂在这个模型中,将动作、观察和奖励信号连接到RL试剂块有关示例,请参见水箱强化学习环境模型.
对于动作和观察信号,必须使用创建规范对象rlNumericSpec
对于连续信号和rlFiniteSetSpec
对于离散信号。对于总线信号,使用创建规范bus2RLSpec
.
对于奖励信号,在模型中构造一个标量信号,并将该信号连接到RL试剂块有关详细信息,请参阅定义奖励信号.
配置Simulink模型后,使用金宝apprl金宝appSimulinkEnv
作用
如果您有一个具有适当操作输入端口、观察输出端口和标量奖励输出端口的参考模型,则可以自动创建包含此参考模型和金宝appRL试剂块有关详细信息,请参阅createIntegratedEnv
. 此函数用于返回模型的环境对象、操作规范和观察规范。
您的环境可以包括第三方功能。有关详细信息,请参阅与现有仿真或环境集成(金宝appSimulink).
rlPredefinedEnv
|rl金宝appSimulinkEnv
|createIntegratedEnv