文档帮助中心文档

代理人

使用常用算法（如SARSA、DQN、DDPG和PPO）创建和配置强化学习代理

强化学习代理从环境中获得观察和奖励。代理使用其策略，根据观察和奖励选择一个操作，并将该操作发送到环境。在培训期间，代理会根据行动、观察和奖励不断更新策略参数。这样，代理就可以学习给定环境和奖励信号的最优策略。

强化学习工具箱™ 软件提供使用几种常用算法的强化学习代理，如SARSA、DQN、DDPG和PPO。您还可以通过创建自己的自定义代理来实现其他代理算法。

有关详细信息，请参阅强化学习代理. 有关定义策略表示的详细信息，请参见创建策略和值函数表示.

应用程序

强化学习设计师

设计、培训和模拟强化学习代理

功能

代理人

`rlQAgent`	Q-学习强化学习agent
`萨金特`	强化学习代理
`rlDQNAgent`	深度Q网络强化学习agent
`rlPGAgent`	策略梯度强化学习代理
`RLDDPG试剂`	深度确定性策略梯度强化学习agent
`RLTD3试剂`	双延迟深层确定性策略梯度强化学习agent
`拉卡金特`	演员-评论家强化学习代理
`RLP发泡剂`	最近策略优化强化学习代理
`rltrpo试剂`	信赖域策略优化强化学习agent
`rlSACAgent`	软演员批评强化学习代理

代理选项

`rlQAgentOptions`	Q-learning代理的选择
`RLSargentOptions`	SARSA代理的选择
`rlDQNAgentOptions`	DQN代理的选项
`rlPGAgentOptions`	PG代理的选项
`rlDDPGAgentOptions`	DDPG代理的选项
`rlTD3AgentOptions`	TD3代理的选项
`rlACAgentOptions`	AC代理的选项
`rlPPOAgentOptions`	PPO代理的选项
`RLTRP代理`	TRPO代理的选项
`RLS代理`	SAC代理的选项
`rlagentinizationoptions`	初始化强化学习代理的选项

获取和设置表示

`getActor`	从强化学习代理获取参与者表示
`Get批评家`	从强化学习代理获取批评表示
`设置器`	强化学习agent的集参与者表示
`赛特评论家`	强化学习agent的集批评表示

采取行动

getAction 从给定环境观察的代理或参与者表示中获取操作

话题

代理基础

强化学习代理

您可以使用几种标准强化学习算法之一创建代理，也可以定义自己的自定义代理。

使用强化学习设计器创建代理

使用强化学习设计器应用程序以交互方式创建或导入培训代理。

代理类型

Q-学习代理

为强化学习创建Q-学习代理。

萨尔萨特工

创建用于强化学习的SARSA代理。

深度Q网络代理

为强化学习创建DQN代理。

策略梯度代理

为强化学习创建PG代理。

深度确定性策略梯度代理

为强化学习创建DDPG代理。

双延迟深层确定性策略梯度代理

为强化学习创建TD3代理。

影评经纪人

为强化学习创建AC代理。

策略优化代理

为强化学习创建PPO代理。

信任域策略优化代理

为强化学习创建TRPO代理。

软演员评论家

创建用于强化学习的SAC代理。

海关代理人

创建自定义强化学习代理

创建使用自定义强化学习算法的代理。

强化学习工具箱文档

金宝app

基于MATLAB和Simulink的强化学习金宝app

基于MATLAB和Simulink的强化学习金宝app

下载电子书