主要内容

培训和验证

训练和模拟强化学习代理

为了学习最优策略,强化学习代理通过反复的试错过程与环境交互。在训练期间,代理调整其策略表示的参数,以最大化长期回报。Reinforcement Learning Toolbox™软件提供了训练代理和通过模拟验证训练结果的功能。有关更多信息,请参见训练强化学习代理

应用程序

强化学习设计 设计、训练和模拟强化学习代理

功能

火车 在指定的环境中训练强化学习代理
rlTrainingOptions 训练强化学习代理的选项
sim卡 在指定的环境中模拟训练过的强化学习代理
rlSimulationOptions 在环境中模拟强化学习代理的选项
inspectTrainingResult 绘制以前培训课程的培训信息

RL代理 强化学习代理

主题

训练与模拟基础

训练强化学习代理

通过在指定的环境中培训您的代理,找到最佳策略。

在基本网格世界中训练强化学习代理

在MATLAB中训练Q-learning和SARSA agent来求解网格世界®

在MDP环境中训练强化学习代理

在一般马尔可夫决策过程环境中训练强化学习代理。

创建Simul金宝appink环境和培训代理

使用强化学习在Simulink中建模的植物来训练控制器金宝app®作为培训环境。

使用强化学习设计师应用程序

使用强化学习设计器设计和训练代理

使用Reinforcement Learning Designer应用程序设计并训练一个车杆系统的DQN代理。

在强化学习设计器中指定模拟选项

交互式地指定模拟强化学习代理的选项。

在强化学习设计器中指定培训选项

交互式地指定训练强化学习代理的选项。

使用多进程和gpu

使用并行计算和gpu的列车代理

通过在多核、gpu、集群或云资源上并行运行模拟,加速代理训练。

用并行计算训练交流Agent平衡车杆系统

使用异步并行计算训练角色-评论代理。

基于并行计算的车道保持辅助DQN Agent训练

使用并行计算为自动驾驶应用训练强化学习代理。

培训代理商MATLAB环境

培训DDPG Agent控制双积分系统

在MATLAB中训练深度确定性策略梯度智能体控制二阶动态系统。

用基线训练PG Agent控制双积分器系统

在MATLAB中训练带基线的策略梯度来控制双积分器系统。

培训DQN员工平衡车杆系统

训练一个深度q学习网络agent来平衡一个MATLAB建模的车杆系统。

训练PG代理平衡车杆系统

在MATLAB中训练策略梯度代理来平衡车杆系统。

训练空调代理人平衡车杆系统

训练一个行动者-评论家代理平衡一个在MATLAB中建模的车杆系统。

用图像观察训练DDPG Agent上摆和平衡摆

使用基于图像的观测信号训练强化学习代理。

使用深度网络设计器创建代理和使用图像观察训练

使用深度学习工具箱™中的深度网络设计器应用程序创建强化学习代理。

培训代理商金宝app环境

训练DQN Agent上摆和平衡摆

训练一个Deep Q-network agent来平衡Simulink中的钟摆。金宝app

训练DDPG Agent上摆和平衡摆

在Simulink中训练一个深度确定性策略梯度agent来平衡一个钟摆。金宝app

训练DDPG Agent用总线信号上摆和平衡摆

训练一个强化学习代理来平衡一个Simulink模型,该模型包含一个总线信号中的观察值。金宝app

培训DDPG代理上吊和平衡车杆系统

训练一个深度确定性的策略梯度代理来摆动并平衡一个模型中的车杆系统Simscape™多体™

多代理培训

训练多个agent执行协作任务

训练两名PPO代理人合作移动物体。

为区域覆盖培训多名特工

训练三个PPO代理人以合作-竞争的方式探索网格世界环境。

训练多agent进行路径跟踪控制

训练一个DQN和一个DDPG agent协同执行自适应巡航控制和车道保持辅助以遵循路径。

模仿学习

模拟MPC控制器的车道保持辅助

训练一个深度神经网络来模仿模型预测控制器的行为。

飞行机器人非线性MPC控制器的仿真

训练一个深度神经网络来模仿非线性模型预测控制器的行为。

用预先训练好的Actor网络训练DDPG Agent

使用先前使用监督学习训练过的行动者网络来训练强化学习代理。

定制代理和训练算法

火车定制LQR代理

培训一个定制的LQR代理。

使用自定义训练循环训练强化学习策略

使用您自己的自定义训练算法训练强化学习策略。

为自定义强化学习算法创建代理

为自定义强化学习算法创建代理。

特色的例子