培训和验证
训练和模拟强化学习代理
为了学习最优策略,强化学习代理通过重复的试错过程与环境交互。在训练过程中,智能体调整其策略表示的参数以最大化长期奖励。强化学习工具箱(Reinforcement Learning Toolbox™)软件提供训练代理的功能,并通过仿真验证训练结果。有关更多信息,请参见训练强化学习代理.
应用程序
强化学习设计师 | 设计、训练和模拟强化学习代理 |
功能
块
RL代理 | 强化学习剂 |
主题
训练与模拟基础
- 训练强化学习代理
通过在指定环境中训练您的代理来找到最优策略。 - 在Basic Grid World中训练强化学习代理
训练Q-learning和SARSA代理在MATLAB中求解网格世界®. - MDP环境下训练强化学习代理
在一般的马尔可夫决策过程环境中训练一个强化学习代理。 - 创建Simul金宝appink环境和训练代理
用Simulink中建模的植物进行强化学习,训练控制器金宝app®作为培训环境。
使用强化学习设计器App
- 使用强化学习设计器设计和训练智能体
使用强化学习设计器应用程序为车杆系统设计和训练DQN代理。 - 在强化学习设计器中指定模拟选项
交互式地指定模拟强化学习代理的选项。 - 在强化学习设计器中指定训练选项
交互式地指定训练强化学习代理的选项。
使用多进程和gpu
- 使用并行计算和图形处理器训练代理
通过在多核、gpu、集群或云资源上并行运行模拟来加速代理训练。 - 用并行计算训练交流代理平衡车杆系统
使用异步并行计算训练actor-批评家代理。 - 利用并行计算训练DQN Agent的车道保持辅助
使用并行计算为自动驾驶应用程序训练强化学习代理。
培训代理人MATLAB环境
- 训练DDPG Agent控制双积分系统
训练深度确定性策略梯度代理控制MATLAB建模的二阶动态系统。 - 用基线训练PG Agent控制双积分系统
训练带有基线的策略梯度来控制MATLAB建模的双积分系统。 - 训练DQN人员平衡车杆系统
训练一个深度q学习网络代理来平衡MATLAB建模的车杆系统。 - 训练PG代理人平衡车杆系统
训练一个策略梯度代理来平衡MATLAB建模的车杆系统。 - 训练交流代理人平衡车杆系统
训练一个actor-critic代理来平衡MATLAB建模的车杆系统。 - 训练DDPG Agent用图像观察摆动和平衡摆
使用基于图像的观察信号训练一个强化学习代理。 - 使用深度网络设计器创建代理,并使用图像观察进行训练
使用深度学习工具箱中的深度网络设计器应用程序创建一个强化学习代理。
培训代理人金宝app环境
- 训练DQN代理人摆动和平衡摆
训练一个Deep Q-network代理来平衡Simulink中建模的钟摆。金宝app - 训练DDPG代理人摆动和平衡摆
训练一个深度确定性策略梯度代理来平衡在Simulink中建模的钟摆。金宝app - 训练DDPG代理用总线信号摆动和平衡摆锤
训练一个强化学习代理来平衡一个摆Simulink模型,该模型包含总线信号中的观测值。金宝app - 训练DDPG代理人摆动和平衡车杆系统
训练一个深度确定性策略梯度代理来摆动和平衡一个建模的车杆系统Simscape™多体™.
多代理培训
- 训练多智能体执行协同任务
训练两个PPO代理协作移动一个对象。 - 为区域覆盖培训多名特工
训练三名PPO代理以协作-竞争的方式探索网格世界环境。 - 训练多智能体路径跟随控制
训练DQN和DDPG代理协同执行自适应巡航控制和车道保持辅助以跟踪路径。
根据控制规格生成奖励
- 从伺服电机的模型预测控制器生成奖励函数
从应用于伺服电机的MPC控制器生成奖励函数。 - 从水箱系统的模型验证块生成奖励函数
从应用于水箱系统的模型验证块生成奖励函数。
模仿学习
- 模拟MPC控制器的车道保持辅助
训练深度神经网络来模仿车道保持辅助系统中模型预测控制器的行为。 - 飞行机器人非线性MPC控制器仿真
训练深度神经网络来模拟飞行机器人的非线性模型预测控制器的行为。 - 用预训练的Actor网络训练DDPG Agent
使用之前使用监督学习训练过的参与者网络训练强化学习代理。
自定义代理和训练算法
- 培训自定义LQR代理
培训自定义LQR代理。 - 使用自定义训练循环训练强化学习策略
使用您自己的自定义训练算法训练一个强化学习策略。 - 自定义训练循环与Simulink动作噪声金宝app
当模型中产生动作噪声时,使用自定义训练循环在Simulink中训练强化学习策略。金宝app - 为自定义强化学习算法创建代理
为自定义强化学习算法创建代理。