主要内容

代理人

使用常用算法(如SARSA、DQN、DDPG和A2C)创建和配置强化学习代理

一个强化学习代理接收意见和从环境的奖励。利用其政策,代理人选择基础上的意见和奖励的行为,并将采取行动的环境。在培训过程中,代理不断更新基础上的操作,观察和奖励政策参数。这样做,允许代理学习对于给定的环境和奖励信号最优策略。

强化学习工具箱™软件提供了使用的几个常用算法,如SARSA,DQN,DDPG和A2C强化学习代理商。您还可以通过创建自己的自定义代理实现其他代理算法。

有关更多信息,请参阅强化学习代理。有关定义策略表示的详细信息,请参阅创建策略和价值功能交涉

应用

强化学习设计 设计,培训和模拟强化学习代理商

职能

展开全部

rlQAgent Q学习强化学习代理
rlSARSAAgent SARSA强化学习代理
rlDQNAgent 深Q-网络强化学习代理
rlPGAgent 策略梯度强化学习代理
rlDDPGAgent 深度确定性策略梯度强化学习agent
rlTD3Agent 双延迟深层确定性策略梯度强化学习agent
rlACAgent 演员,评论家强化学习代理
rlPPOAgent 近端政策优化强化学习代理
rlSACAgent 软演员评论家强化学习代理
rlQAgentOptions 对于Q学习代理选项
rlSARSAAgentOptions 对于SARSA代理选项
rlDQNAgentOptions 对于DQN代理选项
rlPGAgentOptions 对于PG代理选项
rlDDPGAgentOptions 对于DDPG代理选项
rlTD3AgentOptions TD3代理的选项
rlACAgentOptions AC代理的选项
rlPPOAgentOptions PPO代理的选项
rlSACAgentOptions 为SAC代理选项
rlAgentInitializationOptions 初始化强化学习代理选项
getActor 从强化学习代理获取参与者表示
getCritic 从强化学习代理人获取评论家表示
setActor 强化学习agent的集参与者表示
setCritic 强化学习剂套装评论家表示
的getAction 获得代理或演员表示给定的环境观测行动

话题

代理基础知识

强化学习代理

您可以使用几个标准的强化学习算法中的一个代理人或定义自己的代理。

创建代理使用强化学习设计

交互创建或使用强化学习设计应用培训进口代理商。

代理类型

Q学习代理

创建强化学习Q学习代理商。

SARSA代理

创建强化学习SARSA剂。

深Q-网络代理

创建强化学习DQN剂。

策略梯度代理

创建强化学习PG代理商。

深确定性政策梯度代理

创建强化学习DDPG剂。

双延迟深确定性政策梯度代理

创建强化学习TD3剂。

演员,评论家代理

创建强化学习交流代理商。

近端政策优化代理

创建强化学习PPO剂。

软演员,评论家代理

创建强化学习SAC剂。

自定义代理

创建自定义强化学习代理

创建使用自定义强化学习算法的代理。