文件帮助中心文件

培训和验证

火车和模拟强化学习代理

为了学习最佳策略，强化学习代理通过重复的试验和错误过程与环境交互。在培训期间，代理商调整其政策表示的参数，以最大限度地提高长期奖励。加固学习工具箱™软件为培训代理提供功能，并通过模拟验证培训结果。有关更多信息，请参阅火车加固学习代理。

应用

强化学习设计

设计，火车和模拟强化学习代理

职能

`火车`	在指定环境中列车加固学习代理
`rlTrainingOptions`	训练强化学习代理的选项
`SIM`	在指定的环境中模拟训练过的强化学习代理
`rlSimulationOptions`	在环境中模拟强化学习代理的选项
`inspectTrainingResult`	从以前的培训课程培训信息

块

加固学习代理

话题

培训和仿真基础

火车加固学习代理

通过在指定的环境中培训您的代理查找最佳策略。

在基本网格世界中训练强化学习代理

火车Q-Learning和Sarsa代理商解决Matlab的网格世界^®。

MDP环境中的火车强化学习代理

在一般马尔可夫决策过程环境中训练强化学习代理。

创建Simul金宝appink环境和培训代理

使用钢筋使用在Simulink中建模的工厂培训一个控制器金宝app^®作为培训环境。

使用强化学习设计师应用程序

使用钢筋学习设计师的设计和火车代理

使用Reinforcement Learning Designer应用程序设计并训练一个车杆系统的DQN代理。

在强化学习设计器中指定模拟选项

交互方式指定模拟强化学习代理的选项。

在加固学习设计师中指定培训选项

交互式地指定训练强化学习代理的选项。

使用多进程和gpu

使用并行计算和gpu的列车代理

通过在多个核心，GPU，集群或云资源上并行运行模拟来加速代理培训。

火车AC代理使用并行计算平衡车杆系统

使用异步并行计算训练角色-评论代理。

使用并行计算的车道保持辅助列车DQN代理

使用并行计算为自动驾驶应用训练强化学习代理。

培训代理商MATLAB环境

培训DDPG Agent控制双积分系统

在MATLAB中训练深度确定性策略梯度智能体控制二阶动态系统。

用基线训练PG Agent控制双积分器系统

在MATLAB中训练带基线的策略梯度来控制双积分器系统。

培训DQN代理以平衡车杆系统

训练一个深度q学习网络agent来平衡一个MATLAB建模的车杆系统。

训练PG代理平衡车杆系统

培训一个政策梯度代理，以平衡在Matlab中建模的推车杆系统。

训练空调代理人平衡车杆系统

培训演员批评者，以平衡在Matlab中建模的推车杆系统。

用图像观察训练DDPG Agent上摆和平衡摆

使用基于图像的观测信号训练强化学习代理。

使用深度网络设计器创建代理和使用图像观察训练

使用深度学习工具箱™中的深度网络设计器应用程序创建强化学习代理。

培训代理商金宝app环境

培训DQN Agent以摆动和平衡摆锤

培训深度Q-Network代理以平衡Simulink中建模的摆锤。金宝app

火车DDPG代理摇摆和平衡摆锤

培训深度确定性的政策梯度代理，以平衡在Simulink中建模的摆锤。金宝app

火车DDPG代理以摇摆和使用总线信号平衡摆锤

训练一个强化学习代理来平衡一个Simulink模型，该模型包含一个总线信号中的观察值。金宝app

培训DDPG代理上吊和平衡车杆系统

培训深度确定性政策梯度代理，以摆动并平衡建模的推车杆系统Simscape™多体™。

多代理培训

训练多个agent执行协作任务

训练两名PPO代理人合作移动物体。

为区域覆盖培训多名特工

训练三个PPO代理人以合作-竞争的方式探索网格世界环境。

在控制后培训多个代理

培训DQN和DDPG代理以协作执行自适应巡航控制和车道，以遵循路径。

从控制规范生成奖励

从伺服电机模型预测控制器生成奖励函数

从应用于伺服电机的MPC控制器生成奖励功能。

从水箱系统的模型验证块生成奖励功能

从应用于水箱系统的模型验证块生成奖励功能。

仿制学习

模仿MPC控制器，用于车道保持辅助

火车深度神经网络，以模仿车道保持辅助系统内模型预测控制器的行为。

飞行机器人非线性MPC控制器的仿真

火车深度神经网络来模仿飞行机器人的非线性模型预测控制器的行为。

用掠夺演员网络列车DDPG代理

使用先前使用监督学习培训的演员网络列车钢筋学习代理。

自定义代理和培训算法

火车定制LQR代理

训练定制LQR代理。

使用自定义训练循环列车加固学习政策

使用自己的自定义培训算法培训强化学习政策。

为自定义强化学习算法创建代理

为自定义强化学习算法创建代理。

特色例子

调整PI控制器使用强化学习

调整PI控制器使用强化学习

使用强化学习代理调整PI控制器的增益。

打开生活的脚本

培训TD3 Agent进行PMSM控制

培训TD3 Agent进行PMSM控制

训练一个强化学习代理来控制永磁同步电机中的电流。

打开生活的脚本

使用强化学习的配水系统调度

使用强化学习的配水系统调度

培训一名DQN代理，以最优地激活配水系统中的水泵。

打开生活的脚本

训练DDPG Agent控制飞行机器人

训练DDPG Agent控制飞行机器人

训练强化学习代理控制飞行机器人模型。

打开生活的脚本

训练PPO代理登陆火箭

训练PPO代理登陆火箭

培训加固学习代理以落地火箭。

打开生活的脚本

使用强化学习代理训练两足机器人行走

使用强化学习代理训练两足机器人行走

训练强化学习代理来控制模型中的两足步行机器人Simscape multibody.。

打开生活的脚本

基于DDPG Agent的四足机器人运动

基于DDPG Agent的四足机器人运动

训练强化学习代理来控制模型中的四足步行机器人Simscape multibody.。

打开生活的脚本

对DQN代理进行车道保持协助培训

对DQN代理进行车道保持协助培训

为车道保持辅助应用训练强化学习代理。

打开生活的脚本

用于自适应巡航控制的培训DDPG代理

用于自适应巡航控制的培训DDPG代理

为适应性巡航控制应用训练钢筋学习代理。

打开生活的脚本

列车DDPG代理用于路径跟踪控制

列车DDPG代理用于路径跟踪控制

为车道跟踪应用训练强化学习代理。

打开生活的脚本

培训自动代客泊车的PPO代理

培训自动代客泊车的PPO代理

训练一个强化学习代理在一个开放的停车位停车。

打开生活的脚本

训练具有约束执行的强化学习代理

训练具有约束执行的强化学习代理

使用约束强制执行块约束的动作列车培训钢筋学习代理。

打开生活的脚本

使用自定义训练循环的基于模型的强化学习

使用自定义训练循环的基于模型的强化学习

基于模型的强化学习代理学习其环境的模型，它可以用于为培训产生额外的体验。

打开生活的脚本

强化学习工具箱文档

金宝app

强化学习与MATLAB和Simulink金宝app

强化学习与MATLAB和Simulink金宝app

下载电子书