文档帮助中心文档

代理

使用普通算法创建和配置强化学习代理，例如Sarsa，DQN，DDPG和PPO

强化学习代理从环境中接受观察和奖励。使用它的策略，代理根据观察和奖励选择一个行动，并将该行动发送给环境。在训练过程中，agent根据行为、观察和奖励不断更新策略参数。这样做，可以让代理学习给定环境和奖励信号的最优策略。

加固学习工具箱™软件提供使用多种常见算法的强化学习代理，例如Sarsa，DQN，DDPG和PPO。您还可以通过创建自己的自定义代理来实现其他代理算法。

有关详细信息，请参见强化学习代理．有关定义策略表示的更多信息，请参阅创建策略和值函数表示．

应用程序

强化学习设计

设计、训练和模拟强化学习代理

功能

代理

`rlQAgent`	Q-learning强化学习agent
`rlSARSAAgent`	SARSA强化学习剂
`rlDQNAgent`	深度q -网络强化学习agent
`rlpgagent.`	策略梯度强化学习agent
`rlDDPGAgent`	深度确定性政策梯度加固学习代理
`rlTD3Agent`	双延迟深度确定性政策梯度加固学习代理
`rlACAgent`	行动者批评强化学习代理
`rlPPOAgent`	近端策略优化强化学习agent
`rlTRPOAgent`	信赖域策略优化强化学习agent
`rlSACAgent`	软行为者批判强化学习代理

剂的选择

`rlQAgentOptions`	q学习代理的选项
`rlSARSAAgentOptions`	SARSA代理的选择
`rldqnagentoptions.`	DQN代理的选项
`rlPGAgentOptions`	PG试剂的选择
`rlDDPGAgentOptions`	DDPG代理选项
`rlTD3AgentOptions`	TD3代理的选项
`rlacagentoptions.`	AC Agent选项
`rlPPOAgentOptions`	PPO代理的选项
`rlTRPOAgentOptions`	TRPO代理的选项
`rlSACAgentOptions`	SAC代理的选择
`rlAgentInitializationOptions`	初始化强化学习代理的选项

获取和设置表示

`getActor`	获取钢筋学习代理人的演员代表
`getCritic`	从强化学习主体获得批评表征
`setActor`	设置钢筋学习代理人的演员代表
`setCritic`	设置强化学习agent的批判表示

让行动

getAction 从给定环境观察的agent或行动者表示中获得动作

主题

代理基础知识

强化学习代理

您可以使用几种标准强化学习算法之一创建代理，或定义自己的自定义代理。

使用强化学习设计器创建代理

使用Reinforcement Learning Designer应用程序交互式地创建或导入培训代理。

剂类型

q学习的代理

为强化学习创建q学习代理。

撒尔沙代理

为强化学习创建SARSA代理。

深Q-Network代理

创建用于强化学习的DQN代理。

政策梯度代理人

为强化学习创建PG代理。

深度确定性策略梯度代理

创建DDPG代理用于强化学习。

双延迟深度确定性策略梯度agent

创建用于强化学习的TD3代理。

Actor-Critic代理

创建AC代理用于强化学习。

近端政策优化代理

创建强化学习的PPO代理。

Trust Region Policy Optimization Agents

为加强学习创建TRPO代理商。

软Actor-Critic代理

创建用于强化学习的SAC代理。

自定义代理

创建自定义强化学习代理

创建使用自定义强化学习算法的代理。

强化学习工具箱文档

金宝app

用MATLAB和Simulink进行强化学习金宝app

用MATLAB和Simulink进行强化学习金宝app

下载电子书