强化学习代理接收观察和环境的奖励。使用其策略,代理基于观察和奖励选择一个操作,并将动作发送到环境。在培训期间,代理程序不断根据操作,观察和奖励更新策略参数。这样做,允许代理学习给定环境和奖励信号的最佳策略。
加固学习工具箱™软件提供了使用若干常见算法的强化学习代理,例如Sarsa,DQN,DDPG和A2C。您还可以通过创建自己的自定义代理来实现其他代理算法。
有关更多信息,请参阅加固学习代理人。有关定义策略表示的更多信息,请参阅创建策略和值函数表示。
您可以使用多个标准强化学习算法之一创建代理或定义自己的自定义代理。
为加强学习创建Q学习代理商。
为加强学习创造萨尔萨代理商。
为强化学习创建DQN代理商。
为强化学习创建PG代理商。
为加强学习创建DDPG代理商。
为加强学习创建DDPG代理商。
为加强学习创建交流代理商。
为强化学习创建PPO代理商。
为加强学习创建囊代理。
创建使用自定义强化学习算法的代理。