主要内容

代理

使用普通算法创建和配置强化学习代理,例如Sarsa,DQN,DDPG和PPO

强化学习代理从环境中接受观察和奖励。使用它的策略,代理根据观察和奖励选择一个行动,并将该行动发送给环境。在训练过程中,agent根据行为、观察和奖励不断更新策略参数。这样做,可以让代理学习给定环境和奖励信号的最优策略。

加固学习工具箱™软件提供使用多种常见算法的强化学习代理,例如Sarsa,DQN,DDPG和PPO。您还可以通过创建自己的自定义代理来实现其他代理算法。

有关详细信息,请参见强化学习代理.有关定义策略表示的更多信息,请参阅创建策略和值函数表示

应用程序

强化学习设计 设计、训练和模拟强化学习代理

功能

全部展开

rlQAgent Q-learning强化学习agent
rlSARSAAgent SARSA强化学习剂
rlDQNAgent 深度q -网络强化学习agent
rlpgagent. 策略梯度强化学习agent
rlDDPGAgent 深度确定性政策梯度加固学习代理
rlTD3Agent 双延迟深度确定性政策梯度加固学习代理
rlACAgent 行动者批评强化学习代理
rlPPOAgent 近端策略优化强化学习agent
rlTRPOAgent 信赖域策略优化强化学习agent
rlSACAgent 软行为者批判强化学习代理
rlQAgentOptions q学习代理的选项
rlSARSAAgentOptions SARSA代理的选择
rldqnagentoptions. DQN代理的选项
rlPGAgentOptions PG试剂的选择
rlDDPGAgentOptions DDPG代理选项
rlTD3AgentOptions TD3代理的选项
rlacagentoptions. AC Agent选项
rlPPOAgentOptions PPO代理的选项
rlTRPOAgentOptions TRPO代理的选项
rlSACAgentOptions SAC代理的选择
rlAgentInitializationOptions 初始化强化学习代理的选项
getActor 获取钢筋学习代理人的演员代表
getCritic 从强化学习主体获得批评表征
setActor 设置钢筋学习代理人的演员代表
setCritic 设置强化学习agent的批判表示
getAction 从给定环境观察的agent或行动者表示中获得动作

主题

代理基础知识

强化学习代理

您可以使用几种标准强化学习算法之一创建代理,或定义自己的自定义代理。

使用强化学习设计器创建代理

使用Reinforcement Learning Designer应用程序交互式地创建或导入培训代理。

剂类型

q学习的代理

为强化学习创建q学习代理。

撒尔沙代理

为强化学习创建SARSA代理。

深Q-Network代理

创建用于强化学习的DQN代理。

政策梯度代理人

为强化学习创建PG代理。

深度确定性策略梯度代理

创建DDPG代理用于强化学习。

双延迟深度确定性策略梯度agent

创建用于强化学习的TD3代理。

Actor-Critic代理

创建AC代理用于强化学习。

近端政策优化代理

创建强化学习的PPO代理。

Trust Region Policy Optimization Agents

为加强学习创建TRPO代理商。

软Actor-Critic代理

创建用于强化学习的SAC代理。

自定义代理

创建自定义强化学习代理

创建使用自定义强化学习算法的代理。