代理人

使用常用算法(如SARSA、DQN、DDPG和A2C)创建和配置强化学习代理

强化学习代理从环境中获得观察和奖励。代理使用其策略,根据观察和奖励选择一个操作,并将该操作发送到环境。在培训期间,代理会根据行动、观察和奖励不断更新策略参数。这样,代理就可以学习给定环境和奖励信号的最优策略。

强化学习工具箱™ 软件提供使用几种常用算法的强化学习代理,如SARSA、DQN、DDPG和A2C。您还可以通过创建自己的自定义代理来实现其他代理算法。有关详细信息,请参阅强化学习代理.

有关定义策略表示的详细信息,请参见创建策略和值函数表示.

功能

全部展开

rlQAgent Q-学习强化学习agent
萨金特 强化学习代理
rlDQNAgent 深度Q网络强化学习agent
rlPGAgent 策略梯度强化学习代理
RLDDPG试剂 深度确定性策略梯度强化学习agent
RLTD3试剂 双延迟深层确定性策略梯度强化学习agent
拉卡金特 演员-评论家强化学习代理
RLP发泡剂 最近策略优化强化学习代理
rlQAgentOptions Q-learning代理的选择
RLSargentOptions SARSA代理的选择
rlDQNAgentOptions DQN代理的选项
rlPGAgentOptions 策略梯度代理的选项
rlDDPGAgentOptions DDPG代理的选项
rlTD3AgentOptions TD3代理的选项
rlACAgentOptions AC代理的选项
rlPPOAgentOptions 最近策略优化的选项强化学习代理
getActor 从强化学习代理获取参与者表示
Get批评家 从强化学习代理获取批评表示
设置器 强化学习agent的集参与者表示
赛特评论家 强化学习agent的集批评表示
getAction 从给定环境观察的代理或参与者表示中获取操作

话题

强化学习代理

您可以使用几种标准强化学习算法之一创建代理,也可以定义自己的自定义代理。

Q-学习代理

为强化学习创建Q-学习代理。

萨尔萨特工

创建用于强化学习的SARSA代理。

深度Q网络代理

为强化学习创建DQN代理。

策略梯度代理

为强化学习创建PG代理。

深度确定性策略梯度代理

为强化学习创建DDPG代理。

双延迟深层确定性策略梯度代理

为强化学习创建DDPG代理。

影评经纪人

为强化学习创建AC代理。

策略优化代理

为强化学习创建PPO代理。

海关代理人

创建使用自定义强化学习算法的代理。