一个强化学习代理接收意见和从环境的奖励。利用其政策,代理人选择基础上的意见和奖励的行为,并将采取行动的环境。在培训过程中,代理不断更新基础上的操作,观察和奖励政策参数。这样做,允许代理学习对于给定的环境和奖励信号最优策略。
强化学习工具箱™软件提供了使用的几个常用算法,如SARSA,DQN,DDPG和A2C强化学习代理商。您还可以通过创建自己的自定义代理实现其他代理算法。欲了解更多信息,请参阅强化学习代理。
有关定义政策表述的更多信息,请参阅创建策略和价值功能交涉。
您可以使用几个标准的强化学习算法中的一个代理人或定义自己的代理。
创建强化学习Q学习代理商。
创建强化学习SARSA剂。
创建强化学习DQN剂。
创建强化学习PG代理商。
创建强化学习DDPG剂。
创建强化学习DDPG剂。
创建强化学习交流代理商。
创建强化学习PPO剂。
创建药剂的使用习惯强化学习算法。