强化学习代理从环境中接受观察和奖励。代理使用其策略,根据观察和奖励选择一个行动,并将该行动发送给环境。在训练过程中,agent根据动作、观察和奖励不断更新策略参数。这样做,允许代理学习最优策略为给定的环境和奖励信号。
强化学习工具箱™ 软件提供使用几种常用算法的强化学习代理,如SARSA、DQN、DDPG和PPO。您还可以通过创建自己的自定义代理来实现其他代理算法。
有关更多信息,请参见强化学习代理。有关定义策略表示的详细信息,请参阅创建策略和价值功能表示.
强化学习设计 | 设计、训练和模拟强化学习代理 |
您可以使用几种标准强化学习算法之一创建代理,或者定义您自己的自定义代理。
使用Reinforcement Learning Designer应用程序交互式创建或导入培训代理。
为强化学习创建Q-learning代理。
创建SARSA代理来加强学习。
创建用于强化学习的DQN代理。
为强化学习创建PG代理。
创建用于强化学习的DDPG代理。
创建用于强化学习的TD3代理。
创建AC代理以加强学习。
创建强化学习的PPO代理。
为强化学习创建TRPO代理。
创建SAC代理来强化学习。