文件帮助中心文件

代理人

使用常用算法(如SARSA、DQN、DDPG、PPO)创建并配置增强学习代理

强化学习代理接收观察和环境的奖励。使用其策略，代理基于观察和奖励选择一个操作，并将动作发送到环境。在培训期间，代理程序不断根据操作，观察和奖励更新策略参数。这样做，允许代理学习给定环境和奖励信号的最佳策略。

Reinforcement Learning Toolbox™软件提供了使用几种常用算法的强化学习代理，如SARSA、DQN、DDPG和PPO。您还可以通过创建自己的自定义代理来实现其他代理算法。

有关更多信息，请参阅加固学习代理人。有关定义策略表示的更多信息，请参见创建策略和值函数表示。

应用

加固学习设计师

设计，火车和模拟强化学习代理

职能

代理人

`rlqagent.`	Q学习强化学习代理
`rlsarsaagent.`	Sarsa加强学习代理
`rldqnagent.`	深度Q网加固学习代理
`rlPGAgent`	政策梯度强化学习代理
`rlddpgagent.`	深度确定性策略梯度强化学习主体
`rltd3agent.`	双延迟深度确定性策略梯度强化学习主体
`rlacagent.`	演员 - 评论家强化学习代理
`rlppoagent.`	近端政策优化强化学习代理
`rltrpoagent.`	信任区域政策优化强化学习代理
`rlsacagent.`	软演员 - 评论家强化学习代理

代理选项

`rlqagentoptions.`	Q-Learning Agent选项
`rlsarsaagentoptions.`	Sarsa代理人的选择
`rlDQNAgentOptions`	DQN代理的选项
`rlpgagentoptions.`	PG代理选项
`rlddpgagentoptions.`	DDPG代理的选项
`rltd3agentoptions.`	TD3代理的选项
`rlACAgentOptions`	AC代理选项
`rlppoagentoptions.`	PPO剂的选择
`rltrpoagentoptions.`	TRPO代理的选项
`rlsacagentoptions.`	SAC Agent的选项
`rlagentinitializationOptions.`	初始化强化学习代理的选项

获取和设置表示

`工作者`	从强化学习代理中获得角色表示
`透镜`	获取钢筋学习代理人的批评奖学金
`setActor.`	设置强化学习主体的主体表示
`setcritic.`	设定批评批评学习代理的代表

得到行动

`努力`	从代理商或演员代表获取行动给定环境观察

话题

代理基础知识

加固学习代理人

您可以使用多个标准强化学习算法之一创建代理或定义自己的自定义代理。

使用强化学习设计师创建代理商

交互式创建或进口代理用于使用加强学习设计器应用程序进行培训。

代理类型

Q学习代理

为加强学习创建Q学习代理商。

萨拉代表

为加强学习创造萨尔萨代理商。

深度Q-Network代理商

为强化学习创建DQN代理商。

政策梯度代理

为强化学习创建PG代理商。

深度确定性政策梯度代理

为加强学习创建DDPG代理商。

双延迟深度确定性政策梯度代理

为强化学习创建TD3代理商。

演员批评者

为加强学习创建交流代理商。

近端政策优化代理

为强化学习创建PPO代理商。

信任区域政策优化代理商

创建TRPO代理以加强学习。

软演员批评者

为加强学习创建囊代理。

自定义代理人

创建定制强化学习代理

创建使用自定义强化学习算法的代理。

强化学习工具箱文档

金宝app

用Matlab和Simulink加强学习金宝app

用Matlab和Simulink加强学习金宝app

下载电子书