批处理规范化层
批量标准化层独立地对每个通道的所有观测值中的一小批数据进行标准化。为了加快卷积神经网络的训练并降低对网络初始化的敏感性,在卷积层和非线性(如ReLU层)之间使用批量标准化层。
标准化后,层使用可学习的比例因子缩放输入γ并将其偏移一个可学习的偏移量β.
批处理规范化操作规范化元素x我通过首先计算平均值来计算输入的μB和方差σB2.在每个通道的空间、时间和观测维度上独立进行。然后,它计算标准化激活,如下所示:
哪里ϵ是一个常数,在方差非常小时可提高数值稳定性。
考虑到平均值和单位方差为零的输入对于批次标准化之后的操作不是最优的可能性,批次标准化操作使用转换进一步移动和缩放激活
偏移量在哪里β比例因子γ是在网络培训期间更新的可学习参数。
为了在训练后使用网络进行预测,批量标准化需要一个固定的均值和方差来标准化数据。这个固定的均值和方差可以从训练后的训练数据中计算出来,或者在训练期间使用运行统计计算来近似。
如果“BatchNormalizationStatistics”
培训选项是“移动”
,然后软件使用运行估计值近似训练期间的批量标准化统计数据,并在训练后设置受训男子
和训练方差
属性分别为均值和方差的移动估计的最新值。
如果“BatchNormalizationStatistics”
培训选项是“人口”
,然后在网络培训完成后,软件再次通过数据并设置受训男子
和训练方差
分别从整个训练数据集计算的均值和方差的属性。
该层使用受训男子
和训练方差
在预测过程中规范化输入。
[1] Ioffe、Sergey和Christian Szegedy。“批量规范化:通过减少内部协变量变化来加速深度网络培训。”预印本,2015年3月2日提交。https://arxiv.org/abs/1502.03167.