为了学习最佳策略,强化学习代理通过重复的试验和错误过程与环境交互。在培训期间,代理商调整其政策表示的参数,以最大限度地提高长期奖励。加固学习工具箱™软件为培训代理提供功能,并通过模拟验证培训结果。有关更多信息,请参阅火车加固学习代理。
强化学习设计 | 设计,火车和模拟强化学习代理 |
火车 |
在指定环境中列车加固学习代理 |
rlTrainingOptions |
训练强化学习代理的选项 |
SIM |
在指定的环境中模拟训练过的强化学习代理 |
rlSimulationOptions |
在环境中模拟强化学习代理的选项 |
inspectTrainingResult |
从以前的培训课程培训信息 |
RL代理 | 加固学习代理 |
通过在指定的环境中培训您的代理查找最佳策略。
火车Q-Learning和Sarsa代理商解决Matlab的网格世界®。
在一般马尔可夫决策过程环境中训练强化学习代理。
使用钢筋使用在Simulink中建模的工厂培训一个控制器金宝app®作为培训环境。
使用Reinforcement Learning Designer应用程序设计并训练一个车杆系统的DQN代理。
交互方式指定模拟强化学习代理的选项。
交互式地指定训练强化学习代理的选项。
通过在多个核心,GPU,集群或云资源上并行运行模拟来加速代理培训。
使用异步并行计算训练角色-评论代理。
使用并行计算为自动驾驶应用训练强化学习代理。
在MATLAB中训练深度确定性策略梯度智能体控制二阶动态系统。
在MATLAB中训练带基线的策略梯度来控制双积分器系统。
训练一个深度q学习网络agent来平衡一个MATLAB建模的车杆系统。
培训一个政策梯度代理,以平衡在Matlab中建模的推车杆系统。
培训演员批评者,以平衡在Matlab中建模的推车杆系统。
使用基于图像的观测信号训练强化学习代理。
使用深度学习工具箱™中的深度网络设计器应用程序创建强化学习代理。
培训深度Q-Network代理以平衡Simulink中建模的摆锤。金宝app
培训深度确定性的政策梯度代理,以平衡在Simulink中建模的摆锤。金宝app
训练一个强化学习代理来平衡一个Simulink模型,该模型包含一个总线信号中的观察值。金宝app
培训深度确定性政策梯度代理,以摆动并平衡建模的推车杆系统Simscape™多体™。
训练两名PPO代理人合作移动物体。
训练三个PPO代理人以合作-竞争的方式探索网格世界环境。
培训DQN和DDPG代理以协作执行自适应巡航控制和车道,以遵循路径。
火车深度神经网络,以模仿车道保持辅助系统内模型预测控制器的行为。
火车深度神经网络来模仿飞行机器人的非线性模型预测控制器的行为。
使用先前使用监督学习培训的演员网络列车钢筋学习代理。
训练定制LQR代理。
使用自己的自定义培训算法培训强化学习政策。
为自定义强化学习算法创建代理。