强化学习代理接收观察和环境的奖励。使用其策略,代理基于观察和奖励选择一个操作,并将动作发送到环境。在培训期间,代理程序不断根据操作,观察和奖励更新策略参数。这样做,允许代理学习给定环境和奖励信号的最佳策略。
Reinforcement Learning Toolbox™软件提供了使用几种常用算法的强化学习代理,如SARSA、DQN、DDPG和PPO。您还可以通过创建自己的自定义代理来实现其他代理算法。
有关更多信息,请参阅加固学习代理人。有关定义策略表示的更多信息,请参见创建策略和值函数表示。
加固学习设计师 | 设计,火车和模拟强化学习代理 |
为加强学习创建Q学习代理商。
为加强学习创造萨尔萨代理商。
为强化学习创建DQN代理商。
为强化学习创建PG代理商。
为加强学习创建DDPG代理商。
为强化学习创建TD3代理商。
为加强学习创建交流代理商。
为强化学习创建PPO代理商。
创建TRPO代理以加强学习。
为加强学习创建囊代理。