主要内容

代理人

使用普通算法创建和配置强化学习代理,例如Sarsa,DQN,DDPG和A2C

强化学习代理接收观察和环境的奖励。使用其策略,代理基于观察和奖励选择一个操作,并将动作发送到环境。在培训期间,代理程序不断根据操作,观察和奖励更新策略参数。这样做,允许代理学习给定环境和奖励信号的最佳策略。

加固学习工具箱™软件提供了使用若干常见算法的强化学习代理,例如Sarsa,DQN,DDPG和A2C。您还可以通过创建自己的自定义代理来实现其他代理算法。

有关更多信息,请参阅加固学习代理人。有关定义策略表示的更多信息,请参阅创建策略和值函数表示

功能

展开所有

rlqagent. Q学习强化学习代理
rlsarsaagent. Sarsa加强学习代理
rldqnagent. 深度Q网加固学习代理
rlpgagent. 政策梯度强化学习代理
rlddpgagent. 深度确定性政策梯度加固学习代理
rltd3agent. 双延迟深度确定性政策梯度加固学习代理
rlacagent. 演员 - 评论家强化学习代理
rlppoagent. 近端政策优化强化学习代理
rlsacagent. 软演员 - 评论家强化学习代理
rlqagentoptions. Q-Learning Agent选项
rlsarsaagentoptions. Sarsa代理人的选择
rldqnagentoptions. DQN代理的选项
rlpgagentoptions. PG代理选项
rlddpgagentoptions. DDPG代理的选项
rltd3agentoptions. TD3代理的选项
rlacagentoptions. AC代理人的选项
rlppoagentoptions. PPO代理的选项
rlsacagentoptions. SAC Agent的选项
rlagentinitializationOptions. 初始化强化学习代理的选项
工作者 获取钢筋学习代理人的演员代表
透镜 获取钢筋学习代理人的批评奖学金
setActor. 设置钢筋学习代理的演员代表
setcritic. 设定批评批评学习代理的代表
努力 从代理商或演员代表获取行动给定环境观察

主题

加固学习代理人

您可以使用多个标准强化学习算法之一创建代理或定义自己的自定义代理。

Q学习代理

为加强学习创建Q学习代理商。

萨拉代表

为加强学习创造萨尔萨代理商。

深度Q-Network代理商

为强化学习创建DQN代理商。

政策梯度代理人

为强化学习创建PG代理商。

深度确定性政策梯度代理

为加强学习创建DDPG代理商。

双延迟深度确定性政策梯度代理

为加强学习创建DDPG代理商。

演员批评者

为加强学习创建交流代理商。

近端政策优化代理

为强化学习创建PPO代理商。

软演员批评者

为加强学习创建囊代理。

自定义代理人

创建使用自定义强化学习算法的代理。