强化学习使用深层神经网络
火车深层神经网络代理与未知的动态环境中交互
强化学习是一种目标导向的计算方法,其中一个代理学会执行任务与未知的动态环境中交互。在培训过程中,参数学习算法更新代理政策。学习算法的目标是找到一个最优策略,最大化长期任务期间所得到的奖励。
根据代理的类型,政策是由一个或多个政策和价值函数表示。你可以使用深层神经网络实现这些表示。然后您可以使用强化学习训练这些网络工具箱™软件。
有关更多信息,请参见强化学习使用深层神经网络。
主题
强化学习是一种目标导向的计算方法在计算机学会执行任务与一个未知的动态环境中交互。
火车一个控制器使用强化学习和植物建模仿真软件金宝app®培训环境。
创建一个强化学习代理使用深层网络设计师从深度学习工具箱™应用程序。
训练强化学习代理使用一个基于图像的观察信号。
训练强化学习代理一个车道保持辅助应用程序。
火车深神经网络模拟模型预测控制器的行为。