强化学习代理- MATLAB和Simulink MathWorks法国金宝app - 金宝app,下载188bet金宝搏,金宝搏官方网站

强化学习代理

强化学习的目的是培养一个代理来完成一个任务在一个不确定的环境中。在每一个时间间隔,代理接收来自环境的观察和奖励并发送一个操作环境。的奖励是一个衡量成功之前的行动(从以前的状态)是对完成任务目标。

代理包含两个组件:一个策略和学习算法。

图显示与环境交互的一个代理。观察信号从环境到代理,和动作信号从代理到环境。奖励信号从环境到代理内部的强化学习算法。强化学习算法使用可用的信息来更新一个政策。代理使用政策来观察映射到一个动作。

根据不同的学习算法,一个代理维护一个或多个参数化函数近似者培训政策。接近者可以用在两个方面。

代理只使用批评来选择自己的行为依赖于一个间接政策表示。这些药物也被称为价值,他们用一个近似者代表一个值函数或核反应能量函数。一般来说,这些代理与离散行动更好地合作空间但可以成为连续计算昂贵的行动空间。

代理只使用演员选择依赖于他们的行动直接的政策表示。这些药物也被称为基于策略的。政策可以是确定性或随机。一般来说,这些个体是简单,可以处理连续行动空间,尽管训练算法可以敏感噪声测量,可以收敛于局部最小值。

代理使用一个演员和一个评论家被称为actor-critic代理。在这些代理,在培训期间,演员学习的最佳行动使用反馈评论家(而不是直接使用奖励)。同时,评论家学习奖励的价值函数,让它能够正确地批评演员。一般来说,这些代理可以处理离散和连续行动空间。

强化学习工具箱™软件提供以下内置代理。你可以训练这些代理环境中连续或离散的观测空间和下面的行动空间。

下表总结了类型,接近者行动空间,用于所有的内置代理。对于每个代理,观察空间离散,连续或混合。

内置代理:类型和行动空间

每个代理使用的内置代理:接近者

接近者	Q, DQN,撒尔沙	PG	交流、PPO、TRPO	囊	DDPG, TD3
价值函数的评论家V(年代),您可以创建使用 `rlValueFunction`		X(如果使用基线)	X
核反应能量函数评论家问(年代,一个),您可以创建使用 `rlQValueFunction`	X			X	X
多输出核反应能量函数评论家问(年代),离散行动空间,您可以创建使用 `rlVectorQValueFunction`	X
确定的政策的演员π(年代),您可以创建使用 `rlContinuousDeterministicActor`					X
随机(Multinoulli)政策的演员π(年代),离散行动空间,您可以创建使用 `rlDiscreteCategoricalActor`		X	X
随机(高斯)政策的演员π(年代),连续操作空间,您可以创建使用 `rlContinuousGaussianActor`		X	X	X

与默认网络代理——所有代理除了q学习和撒尔沙代理支持默认网络演员和批评。金宝app您可以创建一个代理和一个默认的演员和评论家从环境中基于观察和操作规范。为此,在MATLAB^®命令行,执行以下步骤。

为您的环境创建观测规范。如果你已经有一个环境接口对象,您可以获得这些规范使用getObservationInfo。
为您的环境创建动作规范。如果你已经有一个环境接口对象,您可以获得这些规范使用getActionInfo。
如果需要,指定数量的神经元在每个可学的层或者是否使用一个LSTM层。为此,创建一个代理初始化选项对象使用rlAgentInitializationOptions。
如果需要,指定代理选项创建一个选项对象设置为特定的代理。
使用相应的代理创建函数创建代理。生成的代理包含适当的演员和评论家在上面的表中列出。演员和评论家使用默认智能体深层神经网络内部接近者。

有关创建演员和评论家的更多信息函数近似者,明白了创建政策和价值功能。

您可以使用强化学习设计应用程序导入现有的环境和交互设计DQN DDPG, PPO、TD3代理。这个应用程序允许你培训和模拟代理在你的环境中,分析仿真结果,完善代理参数,和出口代理为进一步使用MATLAB工作区和部署。有关更多信息,请参见使用强化学习设计师创建代理。

当选择一个代理,一个最佳实践是开始一个更简单和更快的训练算法兼容你的行动和观测空间。你可以尝试逐步更复杂的算法,如果简单的不执行。

离散行动和观察空间——离散行动和观察的环境空间,q学习和撒尔沙代理是最简单的相容剂,其次是DQN、PPO和TRPO。
离散行动空间和连续观测空间——一个离散的环境行动空间和连续观测空间,DQN是最简单的相容剂PPO然后TRPO紧随其后。
持续的行动空间——环境连续操作和观察空间,DDPG是最简单的相容剂,其次是TD3, PPO,囊,然后TRPO紧随其后。对于这样的环境,尝试DDPG第一。一般来说:
- TD3是一个改进,DDPG的更复杂的版本。
- 但是需要更多的训练PPO有更稳定的更新。
- 囊是一个改进,更复杂的版本的DDPG产生随机的政策。
- TRPO是一个更复杂的版本的PPO,用更少的观测为确定性环境更健壮。