文档帮助中心文档

培训和验证

训练和模拟强化学习代理

为了学习最优策略，强化学习代理通过反复的试错过程与环境交互。在培训期间，代理调整其策略表示的参数，以最大化长期回报。强化学习工具箱™ 软件为训练代理提供功能，并通过仿真验证训练结果。有关详细信息，请参阅培训强化学习代理.

应用程序

强化学习设计师

设计、培训和模拟强化学习代理

功能

`火车`	在特定环境中培训强化学习代理
`RL培训选项`	培训强化学习代理的选项
`模拟`	在指定环境中模拟经过培训的强化学习代理
`模拟选项`	在环境中模拟强化学习代理的选项
`检查结果`	绘制上一次培训课程的培训信息

阻碍

强化学习代理

话题

培训和模拟基础

培训强化学习代理

通过在指定环境中培训代理，找到最佳策略。

在基本网格世界中训练强化学习Agent

训练Q-learning和SARSA代理在MATLAB中求解网格世界^®.

MDP环境下强化学习Agent的训练

在一般马尔可夫决策过程环境中训练强化学习代理。

创建Simul金宝appink环境并训练Agent

使用Simulink中建模的对象，使用强化学习训练控制器金宝app^®作为培训环境。

使用强化学习设计器应用程序

使用强化学习设计器设计和训练代理

使用强化学习设计器应用程序设计和培训推车杆系统的DQN代理。

在强化学习设计器中指定模拟选项

以交互方式指定用于模拟强化学习代理的选项。

在强化学习设计器中指定培训选项

以交互方式指定培训强化学习代理的选项。

使用多进程和GPU

使用并行计算和GPU训练代理

通过在多个核心、GPU、群集或云资源上并行运行模拟，加快代理培训。

用并行计算训练AC-Agent平衡车杆系统

使用异步并行计算训练actor-Critical agent。

基于并行计算的车道保持辅助训练DQN代理

使用并行计算为自动驾驶应用程序培训强化学习代理。

培训代理MATLAB环境

培训DDPG代理控制双积分系统

训练一个深度确定的策略梯度代理来控制在MATLAB中建模的二阶动态系统。

使用基线培训PG代理以控制双积分系统

训练一个带有基线的策略梯度来控制在MATLAB中建模的双积分系统。

培训DQN代理以平衡大车杆系统

训练一个深度Q学习网络代理来平衡在MATLAB中建模的车杆系统。

培训PG代理以平衡车柱系统

训练策略梯度代理来平衡在MATLAB中建模的车杆系统。

培训交流代理以平衡手推车杆系统

训练一个演员-评论家代理来平衡在MATLAB中建模的车-杆系统。

通过图像观察训练DDPG药剂摆动和平衡摆锤

使用基于图像的观察信号训练强化学习代理。

使用深度网络设计器创建代理和使用图像观察训练

使用Deep learning工具箱中的Deep Network Designer应用程序创建强化学习代理™.

培训代理金宝app环境

培训DQN代理摆动并平衡摆锤

训练深度Q网络代理来平衡Simulink中建模的钟摆。金宝app

训练DDPG代理摆动并平衡摆锤

训练一个深度确定的策略梯度代理来平衡Simulink中建模的钟摆。金宝app

训练DDPG代理向上摆动并平衡摆锤和总线信号

训练强化学习代理来平衡包含总线信号观测值的摆锤Simulink模型。金宝app

培训DDPG代理摆动和平衡车杆系统

训练一个深度确定的策略梯度代理，使其能够在中建模的车杆系统上摆动和平衡Simscape™多体™.

多智能体训练

培训多个代理执行协作任务

训练两个PPO代理协作移动对象。

为区域覆盖培训多个代理

培训三名PPO代理，以协作竞争的方式探索网格世界环境。

训练多个代理进行路径跟踪控制

训练一个DQN和一个DDPG代理协同执行自适应巡航控制和车道保持辅助，以跟随路径。

从控制规范中生成奖励

从伺服电机的模型预测控制器生成奖励函数

从应用于伺服电机的MPC控制器生成奖励函数。

从水箱系统的模型验证块生成奖励函数

从应用于水箱系统的模型验证块生成奖励函数。

模仿学习

用于车道保持辅助的模拟MPC控制器

在车道保持辅助系统中，训练深度神经网络来模拟模型预测控制器的行为。

飞行机器人的模拟非线性MPC控制器

训练一个深度神经网络来模拟飞行机器人的非线性模型预测控制器的行为。

用预训练的Actor网络训练DDPG代理

使用参与者网络训练强化学习代理，该参与者网络之前已使用监督学习进行过训练。

定制代理和训练算法

培训定制LQR代理

培训定制LQR代理。

使用自定义训练循环训练强化学习策略

使用您自己的自定义训练算法训练强化学习策略。

为自定义强化学习算法创建代理

为自定义强化学习算法创建代理。

特色实例

使用强化学习调节PI控制器

使用强化学习调节PI控制器

使用强化学习代理调整PI控制器的增益。

打开实时脚本

用于永磁同步电机控制的列车TD3代理

用于永磁同步电机控制的列车TD3代理

训练强化学习代理来控制永磁同步电机中的电流。

打开实时脚本

基于强化学习的配水系统调度

基于强化学习的配水系统调度

培训DQN代理，以最佳激活配水系统中的泵。

打开实时脚本

训练DDPG代理控制飞行机器人

训练DDPG代理控制飞行机器人

训练强化学习代理控制飞行机器人模型。

打开实时脚本

训练PPO代理降落火箭

训练PPO代理降落火箭

训练强化学习代理降落火箭。

打开实时脚本

使用强化学习代理训练两足机器人行走

使用强化学习代理训练两足机器人行走

训练强化学习代理来控制在中建模的两足步行机器人Simscape多体.

打开实时脚本

基于DDPG代理的四足机器人运动

基于DDPG代理的四足机器人运动

训练一个强化学习代理来控制一个四足步行机器人Simscape多体.

打开实时脚本

为车道保持辅助培训DQN代理

为车道保持辅助培训DQN代理

为车道保持辅助应用程序培训强化学习代理。

打开实时脚本

用于自适应巡航控制的列车DDPG代理

用于自适应巡航控制的列车DDPG代理

为自适应巡航控制应用培训强化学习代理。

打开实时脚本

训练DDPG代理进行路径跟踪控制

训练DDPG代理进行路径跟踪控制

为车道跟随应用程序培训强化学习代理。

打开实时脚本

列车PPO自动泊车代客泊车代理

列车PPO自动泊车代客泊车代理

培训强化学习代理将车辆停放在开放的停车位。

打开实时脚本

训练具有强制约束的强化学习Agent

训练具有强制约束的强化学习Agent

训练强化学习代理，使用约束执行块约束动作。

打开实时脚本

使用自定义训练循环的基于模型的强化学习

使用自定义训练循环的基于模型的强化学习

基于模型的强化学习代理学习其环境的模型，可用于生成额外的培训经验。

打开实时脚本

强化学习工具箱文档

金宝app

基于MATLAB和Simulink的强化学习金宝app

基于MATLAB和Simulink的强化学习金宝app

下载电子书