批量归一化层
批归一层独立地对每个通道的所有观测数据进行小批归一化。为了加快卷积神经网络的训练速度,降低对网络初始化的敏感性,可以在卷积层与非线性层之间使用批量归一化层,如ReLU层。
在归一化之后,该图层以学习的比例因子缩放输入γ并通过可学习的偏移来移动β。
批量归一化操作将元素标准化X一世首先计算平均值μB.和方差σB.2在每个通道的空间,时间和观察尺寸上独立地。然后,它计算规范化的激活
在哪里ϵ当方差非常小时,这是一个常数,提高数值稳定性。
为了允许具有零均值和单位方差的输入的可能性对于跟随批量归一化的操作而不是最佳,批量归一化操作进一步换档并使用转换缩放激活
哪里偏移β和规模因子γ是在网络培训期间更新的可学习参数。
为了在训练后使用网络进行预测,批量归一化需要一个固定的均值和方差来对数据进行归一化。这个固定的平均值和方差可以从训练后的训练数据中计算出来,或者在训练期间使用运行统计计算来近似。
如果是'BatchnormalizationStatistics'
训练方法是'移动'
然后,软件近似于使用运行估计训练期间批量标准化统计数据,并且在培训后,设置训练有训练
和TrainedVariance
属性的最新值的移动估计的平均值和方差,分别。
如果是'BatchnormalizationStatistics'
训练方法是'人口'
然后在网络训练完成后,软件通过数据一次通过数据并设置训练有训练
和TrainedVariance
分别从整个训练数据集计算的平均值和方差。
该层使用了训练有训练
和TrainedVariance
在预测期间规范化输入。
[1] Ioffe,Sergey和Christian Szegedy。“批量标准化:通过减少内部协变速转移加速深度网络培训。”预印本,arXiv: 1502.03167(2015)。