代理

创建和配置强化学习代理使用常见的算法,如撒尔沙,DQN DDPG, PPO

强化学习代理接收来自环境的观察和奖励。利用其政策,代理选择一个行动基于观察和奖励,并发送操作环境。在培训期间,代理不断更新政策参数的基础上行动,观察,和奖励。这样做,可以让代理学习最优政策对于给定的环境和奖励的信号。

强化学习工具箱™软件提供了强化学习代理,使用几种常见算法,如撒尔沙,DQN DDPG, PPO。您还可以实现其他代理算法通过创建自己的自定义代理。

有关更多信息,请参见强化学习代理。定义政策表示更多的信息,请参阅创建政策和价值功能。

应用程序

设计、训练和模拟强化学习代理

`rlQAgent`	q学习的强化学习代理
`rlSARSAAgent`	撒尔沙强化学习代理
`rlDQNAgent`	深Q-network强化学习代理
`rlPGAgent`	政策梯度强化学习代理
`rlDDPGAgent`	深决定性策略梯度强化学习代理
`rlTD3Agent`	Twin-delayed深决定性策略梯度强化学习代理
`rlACAgent`	Actor-critic强化学习代理
`rlPPOAgent`	近端政策优化强化学习代理
`rlTRPOAgent`	信赖域策略优化强化学习代理
`rlSACAgent`	软actor-critic强化学习代理

`rlQAgentOptions`	选择q学习的代理
`rlSARSAAgentOptions`	撒尔沙剂的选择
`rlDQNAgentOptions`	选择DQN代理
`rlPGAgentOptions`	选择PG代理
`rlDDPGAgentOptions`	选择DDPG代理
`rlTD3AgentOptions`	选择TD3代理
`rlACAgentOptions`	选择AC代理
`rlPPOAgentOptions`	选择PPO代理
`rlTRPOAgentOptions`	选择TRPO代理
`rlSACAgentOptions`	囊剂的选择
`rlAgentInitializationOptions`	选择初始化强化学习代理

`rlMBPOAgent`	基于模型的政策优化强化学习代理
`rlMBPOAgentOptions`	选择MBPO代理

getAction 从代理或演员获得行动环境观测

`重置`	重置环境、代理经验缓冲区,或政策对象