为了学习最优策略,强化学习代理通过重复的试错过程与环境交互。在训练过程中,智能体调整其策略表示的参数以最大化长期奖励。强化学习工具箱(Reinforcement Learning Toolbox™)软件提供训练代理的功能,并通过仿真验证训练结果。有关更多信息,请参见训练强化学习代理。
强化学习设计师 | 设计、训练和模拟强化学习代理 |
火车 |
在指定的环境中训练强化学习代理 |
rlTrainingOptions |
训练强化学习代理的选项 |
sim卡 |
在指定的环境中模拟训练好的强化学习代理 |
rlSimulationOptions |
用于在环境中模拟强化学习代理的选项 |
inspectTrainingResult |
绘制上一训练课程的训练信息 |
RL代理 | 强化学习剂 |
通过在指定环境中训练您的代理来找到最优策略。
训练Q-learning和SARSA代理在MATLAB中求解网格世界®。
在一般的马尔可夫决策过程环境中训练一个强化学习代理。
用Simulink中建模的植物进行强化学习,训练控制器金宝app®作为培训环境。
使用强化学习设计器应用程序为车杆系统设计和训练DQN代理。
交互式地指定模拟强化学习代理的选项。
交互式地指定训练强化学习代理的选项。
通过在多核、gpu、集群或云资源上并行运行模拟来加速代理训练。
使用异步并行计算训练actor-批评家代理。
使用并行计算为自动驾驶应用程序训练强化学习代理。
训练深度确定性策略梯度代理控制MATLAB建模的二阶动态系统。
训练带有基线的策略梯度来控制MATLAB建模的双积分系统。
训练一个深度q学习网络代理来平衡MATLAB建模的车杆系统。
训练一个策略梯度代理来平衡MATLAB建模的车杆系统。
训练一个actor-critic代理来平衡MATLAB建模的车杆系统。
使用基于图像的观察信号训练一个强化学习代理。
使用深度学习工具箱中的深度网络设计器应用程序创建一个强化学习代理。
训练一个Deep Q-network代理来平衡Simulink中建模的钟摆。金宝app
训练一个深度确定性策略梯度代理来平衡在Simulink中建模的钟摆。金宝app
训练一个强化学习代理来平衡一个摆Simulink模型,该模型包含总线信号中的观测值。金宝app
训练一个深度确定性策略梯度代理来摆动和平衡一个建模的车杆系统Simscape™多体™。
训练两个PPO代理协作移动一个对象。
训练三名PPO代理以协作-竞争的方式探索网格世界环境。
训练DQN和DDPG代理协同执行自适应巡航控制和车道保持辅助以跟踪路径。
训练深度神经网络来模仿车道保持辅助系统中模型预测控制器的行为。
训练深度神经网络来模拟飞行机器人的非线性模型预测控制器的行为。
使用之前使用监督学习训练过的参与者网络训练强化学习代理。
培训自定义LQR代理。
使用您自己的自定义训练算法训练一个强化学习策略。
为自定义强化学习算法创建代理。