帮助中心帮助中心

代理

使用常用算法(如SARSA、DQN、DDPG和PPO)创建和配置强化学习代理

强化学习代理接收来自环境的观察和奖励。使用它的策略，智能体根据观察和奖励选择一个行动，并将该行动发送给环境。在训练过程中，智能体根据动作、观察和奖励不断更新策略参数。这样做可以让智能体学习给定环境和奖励信号的最优策略。

强化学习工具箱™软件提供了使用几种常见算法的强化学习代理，如SARSA、DQN、DDPG和PPO。您还可以通过创建自己的自定义代理来实现其他代理算法。

有关更多信息，请参见强化学习代理．有关定义策略表示的详细信息，请参见创建策略和值函数．

应用程序

强化学习设计师

设计、训练和模拟强化学习代理

功能

代理

`rlQAgent`	Q-learning强化学习代理
`rlSARSAAgent`	SARSA强化学习剂
`rlDQNAgent`	深度q -网络强化学习代理
`rlPGAgent`	策略梯度强化学习代理
`rlDDPGAgent`	深度确定性策略梯度强化学习代理
`rlTD3Agent`	双延迟深度确定性策略梯度强化学习代理
`rlACAgent`	演员-评论家强化学习代理
`rlPPOAgent`	近端策略优化强化学习代理
`rlTRPOAgent`	信任域策略优化强化学习代理
`rlSACAgent`	软演员-评论家强化学习代理

剂的选择

`rlQAgentOptions`	q学习代理的选项
`rlSARSAAgentOptions`	SARSA代理选项
`rlDQNAgentOptions`	DQN代理选项
`rlPGAgentOptions`	PG代理选项
`rlDDPGAgentOptions`	DDPG代理选项
`rlTD3AgentOptions`	TD3代理的选项
`rlACAgentOptions`	AC剂的选择
`rlPPOAgentOptions`	PPO药剂的选择
`rlTRPOAgentOptions`	TRPO代理选项
`rlSACAgentOptions`	SAC代理选项
`rlAgentInitializationOptions`	初始化强化学习代理的选项

基于模型的策略优化

`rlMBPOAgent`	基于模型的策略优化强化学习代理
`rlMBPOAgentOptions`	MBPO代理选项

获得和设置演员和评论家

`getActor`	从强化学习代理中得到actor
`getCritic`	从强化学习代理获得评论家
`setActor`	强化学习代理的集合角色
`setCritic`	强化学习代理集评论家

让行动

getAction 给定环境观测，从代理或行动者获得动作

经验的缓冲

`rlReplayMemory`	回放记忆体验缓冲器
`附加`	附加经验重放内存缓冲区
`样本`	从重放内存缓冲区的示例经验

重置代理或经验缓冲

`重置`	重置环境、代理、经验缓冲区或策略对象

主题

代理基础知识

强化学习代理
您可以使用几种标准强化学习算法之一创建代理，也可以定义自己的自定义代理。
使用强化学习设计器创建代理
使用强化学习设计器应用程序交互式地创建或导入用于培训的代理。

剂类型

q学习的代理
为强化学习创建Q-learning代理。
撒尔沙代理
创建用于强化学习的SARSA代理。
深度q -网络代理
创建用于强化学习的DQN代理。
政策梯度代理
创建用于强化学习的PG代理。
深度确定性策略梯度代理
创建用于强化学习的DDPG代理。
双延迟深度确定性策略梯度代理
创建用于强化学习的TD3代理。
Actor-Critic代理
创建用于强化学习的AC代理。
近端策略优化代理
创建用于强化学习的PPO代理。
信任区域策略优化代理
创建用于强化学习的TRPO代理。
软演员-评论家代理
创建用于强化学习的SAC代理。
基于模型的策略优化代理
基于模型的强化学习代理学习其环境的模型，它可以用来生成额外的训练经验。

自定义代理

创建自定义强化学习代理
创建使用自定义强化学习算法的代理。