主要内容

代理

使用常用算法(如SARSA、DQN、DDPG、PPO)创建并配置增强学习代理

强化学习代理从环境中接受观察和奖励。代理使用其策略,根据观察和奖励选择一个行动,并将该行动发送给环境。在训练过程中,agent根据动作、观察和奖励不断更新策略参数。这样做,允许代理学习最优策略为给定的环境和奖励信号。

Reinforcement Learning Toolbox™软件提供了使用几种常用算法的强化学习代理,如SARSA、DQN、DDPG和PPO。您还可以通过创建自己的自定义代理来实现其他代理算法。

有关更多信息,请参见强化学习代理.有关定义策略表示的更多信息,请参见创建策略和价值功能表示

应用程序

强化学习设计 设计、训练和模拟强化学习代理

功能

全部展开

rlQAgent Q-learning强化学习代理
rlSARSAAgent SARSA强化学习代理
rlDQNAgent 深度q -网络强化学习代理
rlPGAgent 策略梯度强化学习代理
rlDDPGAgent 深度确定性策略梯度强化学习主体
rlTD3Agent 双延迟深度确定性策略梯度强化学习主体
rlACAgent 行动者-批评家强化学习代理
rlPPOAgent 近端策略优化强化学习代理
rlTRPOAgent 信任域策略优化强化学习代理
rlSACAgent 软演员-评论家强化学习代理
rlQAgentOptions q -学习代理的选项
rlSARSAAgentOptions SARSA代理的选项
rlDQNAgentOptions DQN代理的选项
rlPGAgentOptions PG代理选项
rlDDPGAgentOptions DDPG代理选项
rlTD3AgentOptions TD3代理的选项
rlACAgentOptions AC代理选项
rlPPOAgentOptions PPO剂的选择
rlTRPOAgentOptions TRPO代理的选择
rlSACAgentOptions SAC特工的选择
rlAgentInitializationOptions 初始化强化学习代理的选项
getActor 从强化学习代理中获得角色表示
getCritic 从强化学习代理获得批判表示
setActor 设置强化学习主体的主体表示
setCritic 集合强化学习代理的批判表示
getAction 根据环境观察,从行为者或行动者的表现中获得行动

主题

代理基础知识

强化学习代理

您可以使用几种标准强化学习算法之一创建代理,或者定义您自己的自定义代理。

使用强化学习设计器创建代理

使用Reinforcement Learning Designer应用程序交互式创建或导入培训代理。

剂类型

q学习的代理

为强化学习创建Q-learning代理。

撒尔沙代理

创建SARSA代理来加强学习。

深Q-Network代理

创建用于强化学习的DQN代理。

政策梯度代理

为强化学习创建PG代理。

深度确定性策略梯度代理

创建用于强化学习的DDPG代理。

双延迟深度确定性策略梯度代理

创建用于强化学习的TD3代理。

Actor-Critic代理

创建AC代理以加强学习。

近端政策优化代理

创建强化学习的PPO代理。

信任区域策略优化代理

创建TRPO代理以加强学习。

软Actor-Critic代理

创建SAC代理来强化学习。

自定义代理

创建自定义强化学习代理

创建使用自定义强化学习算法的代理。