主要内容

培训和验证

训练和模拟强化学习代理

为了学习最优策略,强化学习代理通过反复的试错过程与环境交互。在培训期间,代理调整其策略表示的参数,以最大化长期回报。强化学习工具箱™ 软件为训练代理提供功能,并通过仿真验证训练结果。有关详细信息,请参阅培训强化学习代理.

应用程序

强化学习设计师 设计、培训和模拟强化学习代理

功能

火车 在特定环境中培训强化学习代理
RL培训选项 培训强化学习代理的选项
模拟 在指定环境中模拟经过培训的强化学习代理
模拟选项 在环境中模拟强化学习代理的选项
检查结果 绘制上一次培训课程的培训信息

阻碍

RL试剂 强化学习代理

话题

培训和模拟基础

培训强化学习代理

通过在指定环境中培训代理,找到最佳策略。

在基本网格世界中训练强化学习Agent

训练Q-learning和SARSA代理在MATLAB中求解网格世界®.

MDP环境下强化学习Agent的训练

在一般马尔可夫决策过程环境中训练强化学习代理。

创建Simul金宝appink环境并训练Agent

使用Simulink中建模的对象,使用强化学习训练控制器金宝app®作为培训环境。

使用强化学习设计器应用程序

使用强化学习设计器设计和训练代理

使用强化学习设计器应用程序设计和培训推车杆系统的DQN代理。

在强化学习设计器中指定模拟选项

以交互方式指定用于模拟强化学习代理的选项。

在强化学习设计器中指定培训选项

以交互方式指定培训强化学习代理的选项。

使用多进程和GPU

使用并行计算和GPU训练代理

通过在多个核心、GPU、群集或云资源上并行运行模拟,加快代理培训。

用并行计算训练AC-Agent平衡车杆系统

使用异步并行计算训练actor-Critical agent。

基于并行计算的车道保持辅助训练DQN代理

使用并行计算为自动驾驶应用程序培训强化学习代理。

培训代理MATLAB环境

培训DDPG代理控制双积分系统

训练一个深度确定的策略梯度代理来控制在MATLAB中建模的二阶动态系统。

使用基线培训PG代理以控制双积分系统

训练一个带有基线的策略梯度来控制在MATLAB中建模的双积分系统。

培训DQN代理以平衡大车杆系统

训练一个深度Q学习网络代理来平衡在MATLAB中建模的车杆系统。

培训PG代理以平衡车柱系统

训练策略梯度代理来平衡在MATLAB中建模的车杆系统。

培训交流代理以平衡手推车杆系统

训练一个演员-评论家代理来平衡在MATLAB中建模的车-杆系统。

通过图像观察训练DDPG药剂摆动和平衡摆锤

使用基于图像的观察信号训练强化学习代理。

使用深度网络设计器创建代理和使用图像观察训练

使用Deep learning工具箱中的Deep Network Designer应用程序创建强化学习代理™.

培训代理金宝app环境

培训DQN代理摆动并平衡摆锤

训练深度Q网络代理来平衡Simulink中建模的钟摆。金宝app

训练DDPG代理摆动并平衡摆锤

训练一个深度确定的策略梯度代理来平衡Simulink中建模的钟摆。金宝app

训练DDPG代理向上摆动并平衡摆锤和总线信号

训练强化学习代理来平衡包含总线信号观测值的摆锤Simulink模型。金宝app

培训DDPG代理摆动和平衡车杆系统

训练一个深度确定的策略梯度代理,使其能够在中建模的车杆系统上摆动和平衡Simscape™多体™.

多智能体训练

培训多个代理执行协作任务

训练两个PPO代理协作移动对象。

为区域覆盖培训多个代理

培训三名PPO代理,以协作竞争的方式探索网格世界环境。

训练多个代理进行路径跟踪控制

训练一个DQN和一个DDPG代理协同执行自适应巡航控制和车道保持辅助,以跟随路径。

从控制规范中生成奖励

从伺服电机的模型预测控制器生成奖励函数

从应用于伺服电机的MPC控制器生成奖励函数。

从水箱系统的模型验证块生成奖励函数

从应用于水箱系统的模型验证块生成奖励函数。

模仿学习

用于车道保持辅助的模拟MPC控制器

在车道保持辅助系统中,训练深度神经网络来模拟模型预测控制器的行为。

飞行机器人的模拟非线性MPC控制器

训练一个深度神经网络来模拟飞行机器人的非线性模型预测控制器的行为。

用预训练的Actor网络训练DDPG代理

使用参与者网络训练强化学习代理,该参与者网络之前已使用监督学习进行过训练。

定制代理和训练算法

培训定制LQR代理

培训定制LQR代理。

使用自定义训练循环训练强化学习策略

使用您自己的自定义训练算法训练强化学习策略。

为自定义强化学习算法创建代理

为自定义强化学习算法创建代理。

特色实例