文档帮助中心文档

代理

使用常用算法(如SARSA、DQN、DDPG、PPO)创建并配置增强学习代理

强化学习代理从环境中接受观察和奖励。代理使用其策略，根据观察和奖励选择一个行动，并将该行动发送给环境。在训练过程中，agent根据动作、观察和奖励不断更新策略参数。这样做，允许代理学习最优策略为给定的环境和奖励信号。

Reinforcement Learning Toolbox™软件提供了使用几种常用算法的强化学习代理，如SARSA、DQN、DDPG和PPO。您还可以通过创建自己的自定义代理来实现其他代理算法。

有关更多信息，请参见强化学习代理．有关定义策略表示的更多信息，请参见创建策略和价值功能表示．

应用程序

强化学习设计

设计、训练和模拟强化学习代理

功能

代理

`rlQAgent`	Q-learning强化学习代理
`rlSARSAAgent`	SARSA强化学习代理
`rlDQNAgent`	深度q -网络强化学习代理
`rlPGAgent`	策略梯度强化学习代理
`rlDDPGAgent`	深度确定性策略梯度强化学习主体
`rlTD3Agent`	双延迟深度确定性策略梯度强化学习主体
`rlACAgent`	行动者-批评家强化学习代理
`rlPPOAgent`	近端策略优化强化学习代理
`rlTRPOAgent`	信任域策略优化强化学习代理
`rlSACAgent`	软演员-评论家强化学习代理

剂的选择

`rlQAgentOptions`	q -学习代理的选项
`rlSARSAAgentOptions`	SARSA代理的选项
`rlDQNAgentOptions`	DQN代理的选项
`rlPGAgentOptions`	PG代理选项
`rlDDPGAgentOptions`	DDPG代理选项
`rlTD3AgentOptions`	TD3代理的选项
`rlACAgentOptions`	AC代理选项
`rlPPOAgentOptions`	PPO剂的选择
`rlTRPOAgentOptions`	TRPO代理的选择
`rlSACAgentOptions`	SAC特工的选择
`rlAgentInitializationOptions`	初始化强化学习代理的选项

获取和设置表示

`getActor`	从强化学习代理中获得角色表示
`getCritic`	从强化学习代理获得批判表示
`setActor`	设置强化学习主体的主体表示
`setCritic`	集合强化学习代理的批判表示

让行动

getAction 根据环境观察，从行为者或行动者的表现中获得行动

主题

代理基础知识

强化学习代理

您可以使用几种标准强化学习算法之一创建代理，或者定义您自己的自定义代理。

使用强化学习设计器创建代理

使用Reinforcement Learning Designer应用程序交互式创建或导入培训代理。

剂类型

q学习的代理

为强化学习创建Q-learning代理。

撒尔沙代理

创建SARSA代理来加强学习。

深Q-Network代理

创建用于强化学习的DQN代理。

政策梯度代理

为强化学习创建PG代理。

深度确定性策略梯度代理

创建用于强化学习的DDPG代理。

双延迟深度确定性策略梯度代理

创建用于强化学习的TD3代理。

Actor-Critic代理

创建AC代理以加强学习。

近端政策优化代理

创建强化学习的PPO代理。

信任区域策略优化代理

创建TRPO代理以加强学习。

软Actor-Critic代理

创建SAC代理来强化学习。

自定义代理

创建自定义强化学习代理

创建使用自定义强化学习算法的代理。

强化学习工具箱文档

金宝app

强化学习与MATLAB和Simulink金宝app

强化学习与MATLAB和Simulink金宝app

下载电子书