主要内容

代理人

使用常用算法(如SARSA、DQN、DDPG和PPO)创建和配置强化学习代理

强化学习代理从环境中获得观察和奖励。代理使用其策略,根据观察和奖励选择一个操作,并将该操作发送到环境。在培训期间,代理会根据行动、观察和奖励不断更新策略参数。这样,代理就可以学习给定环境和奖励信号的最优策略。

强化学习工具箱™ 软件提供使用几种常用算法的强化学习代理,如SARSA、DQN、DDPG和PPO。您还可以通过创建自己的自定义代理来实现其他代理算法。

有关详细信息,请参阅强化学习代理. 有关定义策略表示的详细信息,请参见创建策略和值函数表示.

应用程序

强化学习设计师 设计、培训和模拟强化学习代理

功能

全部展开

rlQAgent Q-学习强化学习agent
萨金特 强化学习代理
rlDQNAgent 深度Q网络强化学习agent
rlPGAgent 策略梯度强化学习代理
RLDDPG试剂 深度确定性策略梯度强化学习agent
RLTD3试剂 双延迟深层确定性策略梯度强化学习agent
拉卡金特 演员-评论家强化学习代理
RLP发泡剂 最近策略优化强化学习代理
rltrpo试剂 信赖域策略优化强化学习agent
rlSACAgent 软演员批评强化学习代理
rlQAgentOptions Q-learning代理的选择
RLSargentOptions SARSA代理的选择
rlDQNAgentOptions DQN代理的选项
rlPGAgentOptions PG代理的选项
rlDDPGAgentOptions DDPG代理的选项
rlTD3AgentOptions TD3代理的选项
rlACAgentOptions AC代理的选项
rlPPOAgentOptions PPO代理的选项
RLTRP代理 TRPO代理的选项
RLS代理 SAC代理的选项
rlagentinizationoptions 初始化强化学习代理的选项
getActor 从强化学习代理获取参与者表示
Get批评家 从强化学习代理获取批评表示
设置器 强化学习agent的集参与者表示
赛特评论家 强化学习agent的集批评表示
getAction 从给定环境观察的代理或参与者表示中获取操作

话题

代理基础

强化学习代理

您可以使用几种标准强化学习算法之一创建代理,也可以定义自己的自定义代理。

使用强化学习设计器创建代理

使用强化学习设计器应用程序以交互方式创建或导入培训代理。

代理类型

Q-学习代理

为强化学习创建Q-学习代理。

萨尔萨特工

创建用于强化学习的SARSA代理。

深度Q网络代理

为强化学习创建DQN代理。

策略梯度代理

为强化学习创建PG代理。

深度确定性策略梯度代理

为强化学习创建DDPG代理。

双延迟深层确定性策略梯度代理

为强化学习创建TD3代理。

影评经纪人

为强化学习创建AC代理。

策略优化代理

为强化学习创建PPO代理。

信任域策略优化代理

为强化学习创建TRPO代理。

软演员评论家

创建用于强化学习的SAC代理。

海关代理人

创建自定义强化学习代理

创建使用自定义强化学习算法的代理。