为每个观察独立地规范化所有通道的数据
层归一化操作将每个观测数据独立地归一化所有通道上的输入数据。为了加快循环和多层感知器神经网络的训练速度,降低网络初始化的敏感性,在LSTM和全连接操作等可学习操作之后使用层归一化。
归一化之后,该操作将输入移位一个可学习偏移量β然后用一个可学习的比例因子来衡量γ.
的layernorm
函数将层归一化操作应用于dlarray
数据。使用dlarray
对象允许您标记维度,从而更容易处理高维数据。属性标记哪些维度对应于空间、时间、通道和批处理维度“S”
,“T”
,“C”
,“B”
标签,分别。对于未指定的维度和其他维度,使用“U”
标签。为dlarray
对象的函数在特定维度上操作时,可以通过格式化dlarray
对象,或者使用DataFormat
选择。
请注意
类中应用层规范化layerGraph
对象或层
数组,使用layerNormalizationLayer
.
对输入数据应用层规范化操作海底
= layernorm (dlX
,抵消
,scaleFactor
)dlX
并使用指定的偏移量和比例因子对其进行转换。
函数归一化“年代”
(空间),“T”
(时间),“C”
(频道),“U”
的(未指明的)尺寸dlX
对于每一个观察“B”
(批量)尺寸,独立。
对于未格式化的输入数据,使用“DataFormat”
选择。
将层规范化操作应用于未格式化的海底
= layernorm (dlX
,抵消
,scaleFactor
、“DataFormat”FMT)dlarray
对象dlX
指定的格式FMT
.输出海底
是未格式化的dlarray
对象,其维度顺序与dlX
.例如,“DataFormat”、“SSCB”
指定二维图像输入格式的数据“SSCB”
(空间,空间,通道,批次)。
要指定比例和偏移量的格式,请使用“ScaleFormat”
而且“OffsetFormat”
选项,分别。
层规范化操作规范化元素x我首先计算平均值μl和方差σl2在空间,时间和通道维度为每个观测独立。然后,计算归一化激活为
在哪里ϵ是在方差很小时提高数值稳定性的常数。
为了考虑均值和单位方差为零的输入对于层归一化之后的操作不是最优的可能性,层归一化操作使用转换进一步转移和缩放激活
其中偏移量β还有比例因子γ是在网络训练期间更新的可学习参数。
[1]巴、吉米·雷、杰米·瑞安·基罗斯和杰弗里·e·辛顿。“层正常化。”预印本,2016年7月21日提交。https://arxiv.org/abs/1607.06450。
线性整流函数(Rectified Linear Unit)
|fullyconnect
|dlconv
|dlarray
|dlgradient
|dlfeval
|groupnorm
|batchnorm