批处理规范化层
批处理归一化层对每个通道的所有观测数据进行独立的归一化。为了加快卷积神经网络的训练,降低对网络初始化的敏感性,在卷积层和非线性层之间使用批处理归一化层,如ReLU层。
归一化后,该层用可学习的比例因子缩放输入γ并将其偏移一个可学习的偏移量β.
批处理规范化操作规范化元素x我首先计算输入的平均值μB和方差σB2.在每个通道的空间、时间和观测维度上独立进行。然后,它计算标准化激活,如下所示:
在哪里ϵ是一个常数,在方差非常小时可提高数值稳定性。
为了考虑到均值为零和单位方差为零的输入对于批次标准化后的操作不是最优的可能性,批次标准化操作使用转换进一步转移和缩放激活
的偏移量β比例因子γ是在网络培训期间更新的可学习参数。
要对训练后的网络进行预测,批处理归一化需要固定的均值和方差对数据进行归一化。这个固定的平均值和方差可以从训练后的训练数据中计算出来,或者在训练期间使用运行统计计算来近似。
如果“BatchNormalizationStatistics”
训练方法是“移动”
,然后软件使用运行估计值近似训练期间的批量标准化统计数据,并在训练后设置受训男子
和TrainedVariance
属性的最新值的移动估计的平均值和方差,分别。
如果“BatchNormalizationStatistics”
训练方法是“人口”
,则在网络训练结束后,软件再次对数据进行遍历,并设置受训男子
和TrainedVariance
属性分别为从整个训练数据集计算的均值和方差。
该层使用受训男子
和TrainedVariance
在预测期间对输入进行归一化。
[1] Ioffe、Sergey和Christian Szegedy。“批量规范化:通过减少内部协变量变化来加速深度网络培训。”预印本,2015年3月2日提交。https://arxiv.org/abs/1502.03167.