帮助中心帮助中心

培训和验证

训练和模拟强化学习代理

为了学习最优策略，强化学习代理通过重复的试错过程与环境交互。在训练过程中，智能体调整其策略表示的参数以最大化长期奖励。强化学习工具箱(Reinforcement Learning Toolbox™)软件提供训练代理的功能，并通过仿真验证训练结果。有关更多信息，请参见训练强化学习代理．

应用程序

强化学习设计师

设计、训练和模拟强化学习代理

功能

培训代理商

`火车`	在指定的环境中训练强化学习代理
`rlTrainingOptions`	训练强化学习代理的选项
`rlMultiAgentTrainingOptions`	训练多个强化学习代理的选项
`inspectTrainingResult`	绘制上一训练课程的训练信息

日志数据

`rlDataLogger`	创建文件记录器对象或监视器记录器对象以记录训练数据
`FileLogger`	将强化学习训练数据记录到MAT文件中
`MonitorLogger`	将强化学习训练数据记录到监控窗口
`trainingProgressMonitor`	监控并绘制深度学习自定义训练循环的训练进度
`设置`	建立强化学习环境或初始化数据记录器对象
`商店`	将数据存储在(文件或监视器)记录器对象的内部内存中
`写`	将存储的数据从内部记录器存储器传输到日志目标
`清理`	清理强化学习环境或数据记录器对象

模拟代理

`sim卡`	在指定的环境中模拟训练好的强化学习代理
`rlSimulationOptions`	用于在环境中模拟强化学习代理的选项

定制培训

`runEpisode`	针对策略或智能体模拟强化学习环境
`设置`	建立强化学习环境或初始化数据记录器对象
`清理`	清理强化学习环境或数据记录器对象

块

RL代理	强化学习剂
政策	强化学习策略

主题

训练与模拟基础

训练强化学习代理
通过在指定环境中训练您的代理来找到最优策略。
在Basic Grid World中训练强化学习代理
训练Q-learning和SARSA代理在MATLAB中求解网格世界^®．
MDP环境下训练强化学习代理
在一般的马尔可夫决策过程环境中训练一个强化学习代理。
创建Simul金宝appink环境和训练代理
用Simulink中建模的植物进行强化学习，训练控制器金宝app^®作为培训环境。
简单上下文强盗问题的强化学习代理训练
训练一个强化学习代理来解决上下文强盗问题。
将训练数据记录到磁盘
在训练代理时将各种数据记录到磁盘。
使用参数扫描训练强化学习代理
使用超参数扫描训练一个强化学习代理。

使用强化学习设计器应用程序

使用强化学习设计器设计和训练智能体
设计和训练一个车杆系统的DQN代理强化学习设计师应用程序。
在强化学习设计器中指定模拟选项
交互式地指定模拟强化学习代理的选项。
在强化学习设计器中指定训练选项
交互式地指定训练强化学习代理的选项。

使用多进程和gpu

使用并行计算和图形处理器训练代理
通过在多核、gpu、集群或云资源上并行运行模拟来加速代理训练。
用并行计算训练交流代理平衡车杆系统
使用异步并行计算训练actor-批评家代理。
利用并行计算训练DQN Agent的车道保持辅助
使用并行计算为自动驾驶应用程序训练强化学习代理。

训练代理控制双积分系统

训练DDPG Agent控制双积分系统
训练深度确定性策略梯度代理控制MATLAB建模的二阶动态系统。
用基线训练PG Agent控制双积分系统
训练带有基线的策略梯度来控制MATLAB建模的双积分系统。

训练特工平衡车杆系统

训练DQN人员平衡车杆系统
训练一个深度q学习网络代理来平衡MATLAB建模的车杆系统。
训练PG代理人平衡车杆系统
训练一个策略梯度代理来平衡MATLAB建模的车杆系统。
训练交流代理人平衡车杆系统
训练一个actor-critic代理来平衡MATLAB建模的车杆系统。
训练DDPG代理人摆动和平衡车杆系统
训练一个深度确定性策略梯度代理来摆动和平衡一个建模的车杆系统Simscape™多体™．
培训MBPO代理平衡车杆系统
基于模型的强化学习代理学习其环境的模型，它可以用来生成额外的训练经验。

训练特工摆动和平衡钟摆

训练DQN代理人摆动和平衡摆
训练一个Deep Q-network代理来平衡Simulink中建模的钟摆。金宝app
训练DDPG代理人摆动和平衡摆
训练一个深度确定性策略梯度代理来平衡在Simulink中建模的钟摆。金宝app
训练DDPG代理用总线信号摆动和平衡摆锤
训练一个强化学习代理来平衡一个摆Simulink模型，该模型包含总线信号中的观测值。金宝app
训练DDPG Agent用图像观察摆动和平衡摆
使用基于图像的观察信号训练一个强化学习代理。
使用深度网络设计器创建代理，并使用图像观察进行训练
使用深度学习工具箱中的深度网络设计器应用程序创建一个强化学习代理。

多代理培训

训练多智能体执行协同任务
训练两个PPO代理协作移动一个对象。
为区域覆盖培训多名特工
训练三名PPO代理以协作-竞争的方式探索网格世界环境。
训练多智能体路径跟随控制
训练DQN和DDPG代理协同执行自适应巡航控制和车道保持辅助以跟踪路径。

根据控制规格生成奖励

从伺服电机的模型预测控制器生成奖励函数
从应用于伺服电机的MPC控制器生成奖励函数。
从水箱系统的模型验证块生成奖励函数
从应用于水箱系统的模型验证块生成奖励函数。

模仿学习

模拟MPC控制器的车道保持辅助
训练深度神经网络来模仿车道保持辅助系统中模型预测控制器的行为。
飞行机器人非线性MPC控制器仿真
训练深度神经网络来模拟飞行机器人的非线性模型预测控制器的行为。
用预训练的Actor网络训练DDPG Agent
使用之前使用监督学习训练过的参与者网络训练强化学习代理。

训练特工控制机器人

训练DDPG Agent控制飞行机器人
训练一个强化学习代理来控制一个飞行机器人模型。
训练PPO代理人降落火箭
训练一个强化学习代理来让火箭着陆。
使用强化学习代理训练双足机器人行走
训练一个强化学习代理来控制一个两足行走机器人Simscape多体．

训练座席执行控制任务

使用强化学习调优PI控制器
使用强化学习代理调优PI控制器增益。
训练SAC代理人进行球平衡控制
训练一名特工使用机械臂在平面上平衡球。
训练强化学习代理控制Quanser QUBE摆
训练两个强化学习代理来平衡Quanser QUBE旋转倒立摆。
TD3永磁同步电机控制剂的研制
训练一个强化学习代理来控制永磁同步电机中的电流。
用LSTM网络训练DQN代理控制住宅供暖系统
训练一个强化学习代理来控制房子的温度。
用约束强制训练强化学习代理
使用约束强制块训练带有约束动作的强化学习代理。

培训汽车应用代理商

培训DQN代理保持车道辅助
为车道保持辅助应用训练一个强化学习代理。
训练DDPG Agent进行自适应巡航控制
训练一个用于自适应巡航控制应用的强化学习代理。
训练DDPG Agent进行路径跟踪控制
训练一个增强学习代理，用于车道跟踪应用。
培训PPO代理自动代泊车员
训练一个强化学习代理在一个开放的停车位停车。

其他应用程序

培训PPO代理自动代泊车员
训练一个强化学习代理在一个开放的停车位停车。
训练DQN Agent进行波束选择
训练深度q网络(DQN)增强学习代理，用于5G新型无线电通信系统中的波束选择。
基于强化学习的给水系统调度
训练DQN代理以最佳方式激活水分配系统中的泵。

开发定制代理和训练算法

培训自定义LQR代理
培训自定义LQR代理。
使用自定义训练循环训练强化学习策略
使用您自己的自定义训练算法训练一个强化学习策略。
自定义训练循环与Simulink动作噪声金宝app
当模型中产生动作噪声时，使用自定义训练循环在Simulink中训练强化学习策略。金宝app
为自定义强化学习算法创建代理
为自定义强化学习算法创建代理。
使用自定义训练循环的基于模型的强化学习
您可以使用自己的自定义训练循环创建基于模型的强化学习代理。

部署代理和策略

运行SIL和PIL验证强化学习
在软件在环和处理器在环模式下验证RL代理。
生成部署策略块
生成一个策略块来部署经过训练的策略。

特色的例子

自动泊车代客与虚幻引擎模拟

自动泊车代客与虚幻引擎模拟

使用MPC控制器的强化学习代理来执行泊车机动。

打开实时脚本

基于DDPG Agent的四足机器人运动

基于DDPG Agent的四足机器人运动

训练一个强化学习代理来控制一个四足行走机器人Simscape多体．

打开实时脚本