主要内容

强化学习使用深层神经网络

火车深层神经网络代理与未知的动态环境中交互

强化学习是一种目标导向的计算方法,其中一个代理学会执行任务与未知的动态环境中交互。在培训过程中,参数学习算法更新代理政策。学习算法的目标是找到一个最优策略,最大化长期任务期间所得到的奖励。

根据代理的类型,政策是由一个或多个政策和价值函数表示。你可以使用深层神经网络实现这些表示。然后您可以使用强化学习训练这些网络工具箱™软件。

有关更多信息,请参见强化学习使用深层神经网络

主题