培训和验证
学习最优政策,强化学习代理通过反复试错过程与环境的相互作用。在培训期间,代理曲调最大化其政策的参数表示的长期回报。强化学习工具箱™软件提供功能培训代理,通过仿真验证培训结果。有关更多信息,请参见强化学习培训代理。
应用程序
强化学习设计 | 设计、训练和模拟强化学习代理 |
功能
火车 |
强化学习培训代理在指定的环境中 |
rlTrainingOptions |
选择培训强化学习代理 |
sim卡 |
模拟训练强化学习代理在指定的环境中 |
rlSimulationOptions |
选择模拟强化学习代理在一个环境 |
inspectTrainingResult |
情节从先前的训练培训信息 |
块
RL代理 | 强化学习代理 |
主题
培训和模拟基础知识
找到最优政策培训您的代理在指定的环境。
火车q学习和撒尔沙代理在MATLAB解决网格世界®。
训练强化学习代理在一个通用的马尔可夫决策过程的环境。
火车一个控制器使用强化学习和植物建模仿真软件金宝app®培训环境。
利用强化学习设计应用程序
cart-pole系统设计和训练DQN代理使用强化学习设计应用程序。
交互式地为模拟强化学习代理指定选项。
强化学习培训代理交互指定选项。
使用多个进程和gpu
加速剂在多核并行运行的模拟训练,gpu集群或云资源。
火车actor-critic代理使用异步并行计算。
列车自动驾驶的强化学习代理应用程序使用并行计算。
培训代理商MATLAB环境
火车深决定性策略梯度代理在MATLAB控制二阶动态系统建模。
训练策略梯度与基线控制双积分器系统在MATLAB建模。
火车深q学习的网络代理来平衡cart-pole系统在MATLAB建模。
训练策略梯度代理平衡cart-pole系统在MATLAB建模。
火车actor-critic代理平衡cart-pole系统在MATLAB建模。
训练强化学习代理使用一个基于图像的观察信号。
创建一个强化学习代理使用深层网络设计师从深度学习工具箱™应用程序。
培训代理商金宝app环境
火车深Q-network代理来平衡一个钟摆在仿真软件建模。金宝app
火车深决定性策略梯度代理来平衡一个钟摆在仿真软件建模。金宝app
训练强化学习代理平衡摆仿真软件模型,该模型包含观察总线信号。金宝app
火车深决定性策略梯度代理摇摆和平衡cart-pole系统建模Simscape™多体™。
多代理培训
火车两个PPO代理协同移动一个对象。
火车三个PPO代理探索grid-world环境collaborative-competitive的方式。
火车DQN和DDPG代理协作执行自适应巡航控制系统和车道保持辅助路径。
模仿学习
火车深神经网络模拟模型预测控制器的行为在一个车道保持辅助系统。
深神经网络训练模仿行为的飞行机器人的非线性模型预测控制器。
训练强化学习代理使用一个演员网络之前,使用监督学习训练。
自定义代理和训练算法
火车一个自定义等方面的代理。
训练强化学习策略使用自己的自定义训练算法。
创建代理定制的强化学习算法。