代理

使用常用算法(如SARSA、DQN、DDPG、A2C)创建并配置强化学习代理

强化学习代理从环境中接受观察和奖励。代理使用其策略,根据观察和奖励选择一个行动,并将该行动发送给环境。在训练过程中,agent根据动作、观察和奖励不断更新策略参数。这样做,允许代理学习最优策略为给定的环境和奖励信号。

Reinforcement Learning Toolbox™软件提供了使用几种常用算法的强化学习代理,如SARSA、DQN、DDPG和A2C。您还可以通过创建自己的自定义代理来实现其他代理算法。有关更多信息,请参见强化学习代理

有关定义策略表示的更多信息,请参见创建策略和价值功能表示

功能

全部展开

rlQAgent Q-learning强化学习代理
rlSARSAAgent SARSA强化学习代理
rlDQNAgent 深度q -网络强化学习代理
rlPGAgent 策略梯度强化学习代理
rlDDPGAgent 深度确定性策略梯度强化学习主体
rlTD3Agent 双延迟深度确定性策略梯度强化学习主体
rlACAgent 行动者-批评家强化学习代理
rlPPOAgent 近端策略优化强化学习代理
rlQAgentOptions q -学习代理的选项
rlSARSAAgentOptions SARSA代理的选项
rlDQNAgentOptions DQN代理的选项
rlPGAgentOptions 政策梯度代理的选项
rlDDPGAgentOptions DDPG代理选项
rlTD3AgentOptions TD3代理的选项
rlACAgentOptions AC代理选项
rlPPOAgentOptions 近端策略优化选项强化学习代理
getActor 从强化学习代理中获得角色表示
getCritic 从强化学习代理获得批判表示
setActor 设置强化学习主体的主体表示
setCritic 集合强化学习代理的批判表示
getAction 根据环境观察,从行为者或行动者的表现中获得行动

主题

强化学习代理

您可以使用几种标准强化学习算法之一创建代理,或者定义您自己的自定义代理。

q学习的代理

为强化学习创建Q-learning代理。

撒尔沙代理

创建SARSA代理来加强学习。

深Q-Network代理

创建用于强化学习的DQN代理。

政策梯度代理

为强化学习创建PG代理。

深度确定性策略梯度代理

创建用于强化学习的DDPG代理。

双延迟深度确定性策略梯度代理

创建用于强化学习的DDPG代理。

Actor-Critic代理

创建AC代理以加强学习。

近端政策优化代理

创建强化学习的PPO代理。

自定义代理

创建使用自定义强化学习算法的代理。