主要内容

代理

创建和配置强化学习代理使用常见的算法,如撒尔沙,DQN DDPG, PPO

强化学习代理接收来自环境的观察和奖励。利用其政策,代理选择一个行动基于观察和奖励,并发送操作环境。在培训期间,代理不断更新政策参数的基础上行动,观察,和奖励。这样做,可以让代理学习最优政策对于给定的环境和奖励的信号。

强化学习工具箱™软件提供了强化学习代理,使用几种常见算法,如撒尔沙,DQN DDPG, PPO。您还可以实现其他代理算法通过创建自己的自定义代理。

有关更多信息,请参见强化学习代理。定义政策表示更多的信息,请参阅创建政策和价值功能

应用程序

强化学习设计 设计、训练和模拟强化学习代理

功能

全部展开

rlQAgent q学习的强化学习代理
rlSARSAAgent 撒尔沙强化学习代理
rlDQNAgent 深Q-network强化学习代理
rlPGAgent 政策梯度强化学习代理
rlDDPGAgent 深决定性策略梯度强化学习代理
rlTD3Agent Twin-delayed深决定性策略梯度强化学习代理
rlACAgent Actor-critic强化学习代理
rlPPOAgent 近端政策优化强化学习代理
rlTRPOAgent 信赖域策略优化强化学习代理
rlSACAgent 软actor-critic强化学习代理
rlQAgentOptions 选择q学习的代理
rlSARSAAgentOptions 撒尔沙剂的选择
rlDQNAgentOptions 选择DQN代理
rlPGAgentOptions 选择PG代理
rlDDPGAgentOptions 选择DDPG代理
rlTD3AgentOptions 选择TD3代理
rlACAgentOptions 选择AC代理
rlPPOAgentOptions 选择PPO代理
rlTRPOAgentOptions 选择TRPO代理
rlSACAgentOptions 囊剂的选择
rlAgentInitializationOptions 选择初始化强化学习代理
rlMBPOAgent 基于模型的政策优化强化学习代理
rlMBPOAgentOptions 选择MBPO代理
getActor 从强化学习得到演员经纪人
getCritic 从强化学习获得评论家的代理
setActor 集演员强化学习代理
setCritic 评论家强化学习代理
getAction 从代理或演员获得行动环境观测
rlReplayMemory 回放记忆经验缓冲
附加 附加经验重放内存缓冲区
样本 样本经验重放内存缓冲区
重置 重置环境、代理经验缓冲区,或政策对象

主题

代理基础知识

剂类型

自定义代理