主要内容

培训和验证

培训和模拟强化学习代理

学习最优政策,强化学习代理通过反复试错过程与环境的相互作用。在培训期间,代理曲调最大化其政策的参数表示的长期回报。强化学习工具箱™软件提供功能培训代理,通过仿真验证培训结果。有关更多信息,请参见强化学习培训代理

应用程序

强化学习设计 设计、训练和模拟强化学习代理

功能

火车 强化学习培训代理在指定的环境中
rlTrainingOptions 选择培训强化学习代理
sim卡 模拟训练强化学习代理在指定的环境中
rlSimulationOptions 选择模拟强化学习代理在一个环境
inspectTrainingResult 情节从先前的训练培训信息

RL代理 强化学习代理

主题

培训和模拟基础知识

强化学习培训代理

找到最优政策培训您的代理在指定的环境。

强化学习培训代理基本网格的世界

火车q学习和撒尔沙代理在MATLAB解决网格世界®

MDP环境中训练强化学习代理

训练强化学习代理在一个通用的马尔可夫决策过程的环境。

创建仿真软件环金宝app境和培训代理

火车一个控制器使用强化学习和植物建模仿真软件金宝app®培训环境。

利用强化学习设计应用程序

设计和使用强化学习培训代理设计师

cart-pole系统设计和训练DQN代理使用强化学习设计应用程序。

在强化学习设计师指定模拟选项

交互式地为模拟强化学习代理指定选项。

在强化学习设计师指定培训选项

强化学习培训代理交互指定选项。

使用多个进程和gpu

培训代理商使用并行计算和gpu

加速剂在多核并行运行的模拟训练,gpu集群或云资源。

列车空调代理使用并行计算平衡Cart-Pole系统

火车actor-critic代理使用异步并行计算。

火车DQN代理车道保持辅助使用并行计算

列车自动驾驶的强化学习代理应用程序使用并行计算。

培训代理商MATLAB环境

火车DDPG剂来控制双积分器系统

火车深决定性策略梯度代理在MATLAB控制二阶动态系统建模。

火车PG代理与基线控制双积分器系统

训练策略梯度与基线控制双积分器系统在MATLAB建模。

火车DQN代理Cart-Pole平衡系统

火车深q学习的网络代理来平衡cart-pole系统在MATLAB建模。

火车PG代理Cart-Pole平衡系统

训练策略梯度代理平衡cart-pole系统在MATLAB建模。

培训交流代理Cart-Pole平衡系统

火车actor-critic代理平衡cart-pole系统在MATLAB建模。

火车DDPG代理摇摆起来,平衡摆与图像观察

训练强化学习代理使用一个基于图像的观察信号。

使用深度网络设计师创建代理和培训使用图像的观察

创建一个强化学习代理使用深层网络设计师从深度学习工具箱™应用程序。

培训代理商金宝app环境

火车DQN代理和平衡摆摆动

火车深Q-network代理来平衡一个钟摆在仿真软件建模。金宝app

火车DDPG代理和平衡摆摆动

火车深决定性策略梯度代理来平衡一个钟摆在仿真软件建模。金宝app

火车DDPG代理摇摆起来,平衡摆与总线信号

训练强化学习代理平衡摆仿真软件模型,该模型包含观察总线信号。金宝app

火车DDPG代理Cart-Pole摇摆起来,平衡系统

火车深决定性策略梯度代理摇摆和平衡cart-pole系统建模Simscape™多体™

多代理培训

训练多个代理执行协作任务

火车两个PPO代理协同移动一个对象。

火车多个代理区域范围

火车三个PPO代理探索grid-world环境collaborative-competitive的方式。

火车多个代理路径跟踪控制

火车DQN和DDPG代理协作执行自适应巡航控制系统和车道保持辅助路径。

从控制规范生成的奖励

生成奖励函数模型预测控制器的伺服电动机

生成一个奖励函数从一个MPC控制器应用于伺服电动机。

从模型生成奖励函数验证块水箱系统

生成一个奖励函数从一个模型验证块应用于水箱系统。

模仿学习

模仿MPC控制器车道保持辅助

火车深神经网络模拟模型预测控制器的行为在一个车道保持辅助系统。

为飞行机器人模仿非线性MPC控制器

深神经网络训练模仿行为的飞行机器人的非线性模型预测控制器。

火车DDPG代理与Pretrained演员网络

训练强化学习代理使用一个演员网络之前,使用监督学习训练。

自定义代理和训练算法

火车定制等方面代理

火车一个自定义等方面的代理。

训练强化学习策略使用自定义训练循环

训练强化学习策略使用自己的自定义训练算法。

创建代理定制的强化学习算法

创建代理定制的强化学习算法。

特色的例子