一个强化学习代理接收意见和从环境的奖励。利用其政策,代理人选择基础上的意见和奖励的行为,并将采取行动的环境。在培训过程中,代理不断更新基础上的操作,观察和奖励政策参数。这样做,允许代理学习对于给定的环境和奖励信号最优策略。
强化学习工具箱™软件提供了使用的几个常用算法,如SARSA,DQN,DDPG和A2C强化学习代理商。您还可以通过创建自己的自定义代理实现其他代理算法。
有关更多信息,请参阅强化学习代理。有关定义策略表示的详细信息,请参阅创建策略和价值功能交涉。
强化学习设计 | 设计,培训和模拟强化学习代理商 |
创建强化学习Q学习代理商。
创建强化学习SARSA剂。
创建强化学习DQN剂。
创建强化学习PG代理商。
创建强化学习DDPG剂。
创建强化学习TD3剂。
创建强化学习交流代理商。
创建强化学习PPO剂。
创建强化学习SAC剂。