帮助中心帮助中心

培训和验证

训练和模拟强化学习代理

为了学习最优策略，强化学习代理通过重复的试错过程与环境交互。在训练过程中，智能体调整其策略表示的参数以最大化长期奖励。强化学习工具箱(Reinforcement Learning Toolbox™)软件提供训练代理的功能，并通过仿真验证训练结果。有关更多信息，请参见训练强化学习代理．

应用程序

强化学习设计师

设计、训练和模拟强化学习代理

功能

培训代理商

`火车`	在指定的环境中训练强化学习代理
`rlTrainingOptions`	训练强化学习代理的选项
`rlMultiAgentTrainingOptions`	训练多个强化学习代理的选项
`inspectTrainingResult`	绘制上一训练课程的训练信息

模拟代理

`sim卡`	在指定的环境中模拟训练好的强化学习代理
`rlSimulationOptions`	用于在环境中模拟强化学习代理的选项

定制培训

`runEpisode`	针对策略或智能体模拟强化学习环境
`设置`	建立强化学习环境，运行多个模拟
`清理`	在运行多个模拟后清理强化学习环境

块

强化学习剂

主题

训练与模拟基础

训练强化学习代理
通过在指定环境中训练您的代理来找到最优策略。
在Basic Grid World中训练强化学习代理
训练Q-learning和SARSA代理在MATLAB中求解网格世界^®．
MDP环境下训练强化学习代理
在一般的马尔可夫决策过程环境中训练一个强化学习代理。
创建Simul金宝appink环境和训练代理
用Simulink中建模的植物进行强化学习，训练控制器金宝app^®作为培训环境。

使用强化学习设计器App

使用强化学习设计器设计和训练智能体
使用强化学习设计器应用程序为车杆系统设计和训练DQN代理。
在强化学习设计器中指定模拟选项
交互式地指定模拟强化学习代理的选项。
在强化学习设计器中指定训练选项
交互式地指定训练强化学习代理的选项。

使用多进程和gpu

使用并行计算和图形处理器训练代理
通过在多核、gpu、集群或云资源上并行运行模拟来加速代理训练。
用并行计算训练交流代理平衡车杆系统
使用异步并行计算训练actor-批评家代理。
利用并行计算训练DQN Agent的车道保持辅助
使用并行计算为自动驾驶应用程序训练强化学习代理。

培训代理人MATLAB环境

训练DDPG Agent控制双积分系统
训练深度确定性策略梯度代理控制MATLAB建模的二阶动态系统。
用基线训练PG Agent控制双积分系统
训练带有基线的策略梯度来控制MATLAB建模的双积分系统。
训练DQN人员平衡车杆系统
训练一个深度q学习网络代理来平衡MATLAB建模的车杆系统。
训练PG代理人平衡车杆系统
训练一个策略梯度代理来平衡MATLAB建模的车杆系统。
训练交流代理人平衡车杆系统
训练一个actor-critic代理来平衡MATLAB建模的车杆系统。
训练DDPG Agent用图像观察摆动和平衡摆
使用基于图像的观察信号训练一个强化学习代理。
使用深度网络设计器创建代理，并使用图像观察进行训练
使用深度学习工具箱中的深度网络设计器应用程序创建一个强化学习代理。

培训代理人金宝app环境

训练DQN代理人摆动和平衡摆
训练一个Deep Q-network代理来平衡Simulink中建模的钟摆。金宝app
训练DDPG代理人摆动和平衡摆
训练一个深度确定性策略梯度代理来平衡在Simulink中建模的钟摆。金宝app
训练DDPG代理用总线信号摆动和平衡摆锤
训练一个强化学习代理来平衡一个摆Simulink模型，该模型包含总线信号中的观测值。金宝app
训练DDPG代理人摆动和平衡车杆系统
训练一个深度确定性策略梯度代理来摆动和平衡一个建模的车杆系统Simscape™多体™．

多代理培训

训练多智能体执行协同任务
训练两个PPO代理协作移动一个对象。
为区域覆盖培训多名特工
训练三名PPO代理以协作-竞争的方式探索网格世界环境。
训练多智能体路径跟随控制
训练DQN和DDPG代理协同执行自适应巡航控制和车道保持辅助以跟踪路径。

根据控制规格生成奖励

从伺服电机的模型预测控制器生成奖励函数
从应用于伺服电机的MPC控制器生成奖励函数。
从水箱系统的模型验证块生成奖励函数
从应用于水箱系统的模型验证块生成奖励函数。

模仿学习

模拟MPC控制器的车道保持辅助
训练深度神经网络来模仿车道保持辅助系统中模型预测控制器的行为。
飞行机器人非线性MPC控制器仿真
训练深度神经网络来模拟飞行机器人的非线性模型预测控制器的行为。
用预训练的Actor网络训练DDPG Agent
使用之前使用监督学习训练过的参与者网络训练强化学习代理。

自定义代理和训练算法

培训自定义LQR代理
培训自定义LQR代理。
使用自定义训练循环训练强化学习策略
使用您自己的自定义训练算法训练一个强化学习策略。
自定义训练循环与Simulink动作噪声金宝app
当模型中产生动作噪声时，使用自定义训练循环在Simulink中训练强化学习策略。金宝app
为自定义强化学习算法创建代理
为自定义强化学习算法创建代理。

特色的例子

使用强化学习调优PI控制器

使用强化学习调优PI控制器

使用强化学习代理调优PI控制器增益。

打开实时脚本

训练强化学习代理来控制Quanser QUBE™摆

训练强化学习代理来控制Quanser QUBE™摆

训练两个强化学习代理来平衡Quanser QUBE旋转倒立摆。

打开实时脚本

运行SIL和PIL验证强化学习

运行SIL和PIL验证强化学习

在软件在环和处理器在环模式下验证RL代理。

打开实时脚本

训练SAC代理人进行球平衡控制

训练SAC代理人进行球平衡控制

训练一名特工使用机械臂在平面上平衡球。

打开实时脚本

自动泊车代客与虚幻引擎模拟

自动泊车代客与虚幻引擎模拟

使用MPC控制器的强化学习代理来执行泊车机动。

打开实时脚本

TD3永磁同步电机控制剂的研制

TD3永磁同步电机控制剂的研制

训练一个强化学习代理来控制永磁同步电机中的电流。

打开实时脚本

基于强化学习的给水系统调度

基于强化学习的给水系统调度

训练DQN代理以最佳方式激活水分配系统中的泵。

打开实时脚本

训练DDPG Agent控制飞行机器人

训练DDPG Agent控制飞行机器人

训练一个强化学习代理来控制一个飞行机器人模型。

打开实时脚本

训练PPO代理人降落火箭

训练PPO代理人降落火箭

训练一个强化学习代理来让火箭着陆。

打开实时脚本

使用强化学习代理训练双足机器人行走

使用强化学习代理训练双足机器人行走

训练一个强化学习代理来控制一个两足行走机器人Simscape多体．

打开实时脚本

基于DDPG Agent的四足机器人运动

基于DDPG Agent的四足机器人运动

训练一个强化学习代理来控制一个四足行走机器人Simscape多体．

打开实时脚本

培训DQN代理保持车道辅助

培训DQN代理保持车道辅助

为车道保持辅助应用训练一个强化学习代理。

打开实时脚本

训练DDPG Agent进行自适应巡航控制

训练DDPG Agent进行自适应巡航控制

训练一个用于自适应巡航控制应用的强化学习代理。

打开实时脚本

训练DDPG Agent进行路径跟踪控制

训练DDPG Agent进行路径跟踪控制

训练一个增强学习代理，用于车道跟踪应用。

打开实时脚本

培训PPO代理自动代泊车员

培训PPO代理自动代泊车员

训练一个强化学习代理在一个开放的停车位停车。

打开实时脚本

用约束强制训练强化学习代理

用约束强制训练强化学习代理

使用约束强制块训练带有约束动作的强化学习代理。

打开实时脚本

培训MBPO代理平衡车杆系统

培训MBPO代理平衡车杆系统

基于模型的强化学习代理学习其环境的模型，它可以用来生成额外的训练经验。

打开实时脚本

使用自定义训练循环的基于模型的强化学习

使用自定义训练循环的基于模型的强化学习

您可以使用自己的自定义训练循环创建基于模型的强化学习代理。

打开实时脚本