代理
使用普通算法创建和配置强化学习代理,例如Sarsa,DQN,DDPG和PPO
强化学习代理从环境中接受观察和奖励。使用它的策略,代理根据观察和奖励选择一个行动,并将该行动发送给环境。在训练过程中,agent根据行为、观察和奖励不断更新策略参数。这样做,可以让代理学习给定环境和奖励信号的最优策略。
加固学习工具箱™软件提供使用多种常见算法的强化学习代理,例如Sarsa,DQN,DDPG和PPO。您还可以通过创建自己的自定义代理来实现其他代理算法。
有关详细信息,请参见强化学习代理.有关定义策略表示的更多信息,请参阅创建策略和值函数表示.
应用程序
强化学习设计 | 设计、训练和模拟强化学习代理 |
功能
主题
代理基础知识
您可以使用几种标准强化学习算法之一创建代理,或定义自己的自定义代理。
使用Reinforcement Learning Designer应用程序交互式地创建或导入培训代理。
剂类型
为强化学习创建q学习代理。
为强化学习创建SARSA代理。
创建用于强化学习的DQN代理。
为强化学习创建PG代理。
创建DDPG代理用于强化学习。
创建用于强化学习的TD3代理。
创建AC代理用于强化学习。
创建强化学习的PPO代理。
Trust Region Policy Optimization Agents
为加强学习创建TRPO代理商。
创建用于强化学习的SAC代理。