为强化学习创建金宝appSimulink环境 - Matlab＆Simulink - 金宝app,下载188bet金宝搏,金宝搏官方网站

创造金宝app加强学习的环境

在钢筋学习场景中，您正在培训代理完成任务，环境模拟代理交互的动态。如下图所示，环境：

从代理商接收行动。
输出响应行动的观察。
生成奖励测量行动有助于实现任务的贡献。

创建环境模型包括定义以下内容：

操作和观察信号表示代理用于与环境交互。
奖励信号代理用于衡量其成功。有关更多信息，请参阅定义奖励信号。
环境动态行为。

动作和观察信号

创建环境对象时，必须指定代理用于与环境交互的操作和观察信号。您可以创建离散和连续操作空间。有关更多信息，请参阅rlnumericspec.和rlfinitesetspec.，分别。

您选择的信号和观察的信号取决于您的应用程序。例如，对于控制系统应用，错误信号的积分（有时导数）通常是有用的观察。此外，对于参考跟踪应用，具有时变的参考信号作为观察是有帮助的。

当你定义你的观测信号,确保that all the system states are observable through the observations. For example, an image observation of a swinging pendulum has position information but does not have enough information to determine the pendulum velocity. In this case, you can specify the pendulum velocity as a separate observation.

预定义金宝appEnvironments

钢筋学习工具箱™软件提供预定义的Simulink金宝app^®在已经定义了操作，观察，奖励和动态的环境。您可以使用这些环境：

学习强化学习概念。
熟悉钢筋学习工具箱软件功能。
Test your own reinforcement learning agents.

有关更多信息，请参阅加载预定义的Simulink环境金宝app。

习俗金宝appEnvironments

To specify your own custom reinforcement learning environment, create a Simulink model with anRL代理人块。在此模型中，将动作，观察和奖励信号连接到RL代理人块。例如，看到水箱加固学习环境模型。

对于动作和观察信号，您必须使用规范对象使用rlnumericspec.for continuous signals andrlfinitesetspec.用于离散信号。对于总线信号，使用创建规格bus2rlspec.。

对于奖励信号，在模型中构建标量信号并将此信号连接到RL代理人块。有关更多信息，请参阅定义奖励信号。

配置Simulink模型后，使用该模型创建一金宝app个环境对象Rl金宝appsimulinkenv.功能。

If you have a reference model with an appropriate action input port, observation output port, and scalar reward output port, you can automatically create a Simulink model that includes this reference model and anRL代理人块。有关更多信息，请参阅createIntegratedEnv。This function returns the environment object, action specifications, and observation specifications for the model.

您的环境可以包括第三方功能。有关更多信息，请参阅Integrate with Existing Simulation or Environment（金宝appSimulink）。

也可以看看

createIntegratedEnv|Rlpredefinedenv.|Rl金宝appsimulinkenv.

创造金宝app加强学习的环境

动作和观察信号

预定义金宝appEnvironments

习俗金宝appEnvironments

也可以看看

Related Topics

强化学习工具箱文档

金宝app

用Matlab和Simulink加强学习金宝app