主要内容

代理

使用常用算法(如SARSA、DQN、DDPG和PPO)创建和配置强化学习代理

强化学习代理接收来自环境的观察和奖励。使用它的策略,智能体根据观察和奖励选择一个行动,并将该行动发送给环境。在训练过程中,智能体根据动作、观察和奖励不断更新策略参数。这样做可以让智能体学习给定环境和奖励信号的最优策略。

强化学习工具箱™软件提供了使用几种常见算法的强化学习代理,如SARSA、DQN、DDPG和PPO。您还可以通过创建自己的自定义代理来实现其他代理算法。

有关更多信息,请参见强化学习代理.有关定义策略表示的详细信息,请参见创建策略和值函数

应用程序

强化学习设计师 设计、训练和模拟强化学习代理

功能

全部展开

rlQAgent Q-learning强化学习代理
rlSARSAAgent SARSA强化学习剂
rlDQNAgent 深度q -网络强化学习代理
rlPGAgent 策略梯度强化学习代理
rlDDPGAgent 深度确定性策略梯度强化学习代理
rlTD3Agent 双延迟深度确定性策略梯度强化学习代理
rlACAgent 演员-评论家强化学习代理
rlPPOAgent 近端策略优化强化学习代理
rlTRPOAgent 信任域策略优化强化学习代理
rlSACAgent 软演员-评论家强化学习代理
rlQAgentOptions q学习代理的选项
rlSARSAAgentOptions SARSA代理选项
rlDQNAgentOptions DQN代理选项
rlPGAgentOptions PG代理选项
rlDDPGAgentOptions DDPG代理选项
rlTD3AgentOptions TD3代理的选项
rlACAgentOptions AC剂的选择
rlPPOAgentOptions PPO药剂的选择
rlTRPOAgentOptions TRPO代理选项
rlSACAgentOptions SAC代理选项
rlAgentInitializationOptions 初始化强化学习代理的选项
rlMBPOAgent 基于模型的策略优化强化学习代理
rlMBPOAgentOptions MBPO代理选项
getActor 从强化学习代理中得到actor
getCritic 从强化学习代理获得评论家
setActor 强化学习代理的集合角色
setCritic 强化学习代理集评论家
getAction 给定环境观测,从代理或行动者获得动作
rlReplayMemory 回放记忆体验缓冲器
附加 附加经验重放内存缓冲区
样本 从重放内存缓冲区的示例经验
重置 重置环境、代理、经验缓冲区或策略对象

主题

代理基础知识

剂类型

自定义代理