RL代理

加固学习代理

展开所有页面

图书馆：
加固学习工具箱

描述

使用RL代理块在Simulink中模拟和训练强化学习代理金宝app^®．将块与存储在MATLAB中的代理关联起来^®工作区或数据字典作为代理对象，如rlacagent.或rlddpgagent.目的。您连接块，以便它收到观察和计算的奖励。例如，考虑以下框图rlSimplePendulumModel模型。

这观察输入端口RL代理块接收从摆锤的瞬时角度和角速度导出的信号。这奖励端口接收来自相同两个值和应用程序的奖励。您可以配置适合您系统的观测和奖励计算。

该块使用代理基于您提供的观察和奖励来生成动作。连接行动输出端口到适当的输入为您的系统。例如，在rlSimplePendulumModel，这行动端口是施加在摆系统上的力矩。有关此模型的更多信息，请参见培训DQN Agent以摆动和平衡摆锤．

要在Simulink中培训钢筋学习代理，请从Simulink模型生成一个环境。金宝app然后，您可以创建并配置培训的代理以防止该环境。有关更多信息，请参阅创建Simul金宝appink强化学习环境．你打电话时火车使用环境，火车模拟模型并更新与块关联的代理。

港口

输入

展开全部

`观察`- 环境观察
标量|矢量|非宽恕巴士

此端口从环境中接收观察信号。观察信号表示测量或其他瞬时系统数据。如果您有多个观察，可以使用aMux块将它们组合成矢量信号。使用非维速总线信号，使用bus2RLSpec．

`奖励`- 从环境中奖励
标量子

此端口接收奖励信号，您根据观察数据计算。在代理培训期间使用奖励信号，以最大限度地提高长期奖励的期望。

`已经完成了`-终止剧集模拟的标志
逻辑

使用此信号指定终止训练集的条件。您必须配置适合于您的系统的逻辑，以确定插曲终止的条件。一种应用是终止一个明显进展顺利或不顺利的插曲。例如，如果代理达到其目标或不可恢复地远离其目标，您可以终止一个情节。

`外来行动`-外部动作信号
标量|向量

使用此信号为块提供外部动作。该信号可以是来自人类专家的控制动作，可用于安全或模仿学习应用。当值的值使用外部措施信号是1，通过了外来行动通过借助于环境的信号行动块输出。该块还使用外部操作根据产生的观察和奖励来更新代理策略。

依赖性

要启用此端口，请选择为外部动作信号添加入口范围。

`使用外部措施`- 使用外部动作信号
`0.`|`1`

使用此信号通过外来行动向环境发出信号。

当值的值使用外部措施信号是1障碍物通过外来行动向环境发出信号。该块还使用外部操作来更新代理策略。

当值的值使用外部措施信号是0.块没有通过外来行动向环境中的信号并不使用外部操作更新策略。相反，块的操作使用代理策略的操作。

依赖性

要启用此端口，请选择为外部动作信号添加入口范围。

输出

展开全部

`行动`——代理操作
标量|矢量|非宽恕巴士

代理基于观察和奖励输入计算的操作。将此端口连接到系统的输入。使用非维速总线信号，使用bus2RLSpec．

笔记

当代理人如rlacagent.那rlPGAgent，或者rlppoagent.使用一个rlStochasticActorRepresentation具有连续操作空间的参与者，由操作规范设置的约束不会由代理强制执行。在这些情况下，您必须在环境中强制操作空间约束。

`cumulative_reward`——总奖励
标量|向量

仿真期间奖励信号的累积总和。观察或记录此信号以跟踪累计奖励如何随时间演变。

依赖性

要启用此端口，请选择提供累积奖励信号范围。

参数

展开全部

`代理对象`- 培训代理人
`代理人`（默认）|代理对象

输入存储在MATLAB工作空间或数据字典中的代理对象的名称，例如rlacagent.或rlddpgagent.目的。有关代理对象的信息，请参阅强化学习代理．

程序使用

块参数:代理

类型：字符串，字符向量

默认：“Agentobj”

`提供累积奖励信号`- 添加累积奖励输出端口
`从`（默认）|`在`

启用cumulative_reward通过选择此参数来阻止输出。

程序使用

块参数:ProvideCumrwd.

类型：字符串，字符向量

价值观：“关闭”那“在”

默认：“关闭”

`为外部动作信号添加入口`- 添加外部操作的输入端口
`从`（默认）|`在`

启用外来行动和使用外部措施通过选择该参数阻塞输入端口。

程序使用

块参数:ExternalactionAsInput.

类型：字符串，字符向量

价值观：“关闭”那“在”

默认：“关闭”

模型例子

培训DQN Agent以摆动和平衡摆锤

培训深度Q-Network代理以平衡Simulink中建模的摆锤。金宝app

火车DDPG代理摇摆和平衡摆锤

培训深度确定性的政策梯度代理，以平衡在Simulink中建模的摆锤。金宝app

也可以看看

bus2RLSpec|CreateIntegrateenv.

话题

在R2019A介绍

RL代理

描述

港口