BatchnormalizationLayer.

批量归一化层

展开所有页面

描述

批归一层独立地对每个通道的所有观测数据进行小批归一化。为了加快卷积神经网络的训练速度，降低对网络初始化的敏感性，可以在卷积层与非线性层之间使用批量归一化层，如ReLU层。

在归一化之后，该图层以学习的比例因子缩放输入γ并通过可学习的偏移来移动β。

创建

句法

层= batchNormalizationLayer

tillay = batchnormalizationLayer（名称，值）

描述

层= batchNormalizationLayer创建批处理规范化层。

例子

层= batchNormalizationLayer (名称，价值）创建批量归一化层并设置可选训练有训练那TrainedVariance那埃斯利昂那参数和初始化那学习速度和正规化，和名称属性使用一个或多个名称值对。例如，BatchnormalizationLayer（'姓名'，'batchnorm'）创建一个带有名称的批处理规范化层“batchnorm”。

特性

全部展开

批量归一化

`训练有训练`-用于预测的平均统计
数字数组

用于预测的平均统计，指定为以下之一：

对于2-D图像输入，一个大小的数字阵列1-by-1-by-NumChannels.
对于3-D图像输入，1-×1-1-by-1-by-1-by-1-by-1-by-1的数字阵列数组NumChannels.
对于特征或序列输入，大小的数字数组NumChannels.1

如果是'BatchnormalizationStatistics'训练方法是'移动'然后，软件近似于使用运行估计训练期间批量标准化统计数据，并且在培训后，设置训练有训练和TrainedVariance属性的最新值的移动估计的平均值和方差，分别。

如果是'BatchnormalizationStatistics'训练方法是'人口'然后在网络训练完成后，软件通过数据一次通过数据并设置训练有训练和TrainedVariance分别从整个训练数据集计算的平均值和方差。

该层使用了训练有训练和TrainedVariance在预测期间规范化输入。

`TrainedVariance`-用于预测的方差统计
数字数组

用于预测的variance统计，指定为以下之一：

对于2-D图像输入，一个大小的数字阵列1-by-1-by-NumChannels.
对于3-D图像输入，1-×1-1-by-1-by-1-by-1-by-1-by-1的数字阵列数组NumChannels.
对于特征或序列输入，大小的数字数组NumChannels.1

该层使用了训练有训练和TrainedVariance在预测期间规范化输入。

`埃斯利昂`-常数添加到迷你批次差异
`1E-5`（默认）|数字标量

常数添加到迷你批处理差异，指定为等于或大于或大于的数字标量1E-5。

该层在归一化之前将该常数添加到小批方差中，以确保数值稳定并避免被零除。

`NumChannels.`-输入通道数
`'汽车'`（默认）|正整数

输入通道数，指定为'汽车'或者一个正整数。

此属性始终等于到图层的输入的通道数。如果NumChannels.等于'汽车'，然后软件自动确定训练时通道数的正确值。

参数和初始化

`ScaleInitializer`-初始化信道比例因子的功能
`“的”`（默认）|`'窄正常'`|功能手柄

初始化信道比例因子的函数，指定为以下之一：

“的”—初始化通道比例因子为1。
'zeros'- 用零初始化信道比例因子。
'窄正常'-初始化通道规模因子独立抽样从一个正态分布的零均值和标准偏差0.01。
功能句柄 - 使用自定义功能初始化信道比例因子。如果指定函数句柄，则函数必须是表单Scale = Func（SZ）,在那里SZ.是规模的大小。例如，看到指定自定义权重初始化功能。

该层仅初始化信道比例因子规模财产是空的。

数据类型：字符|细绳|function_handle.

`OffsetInitializer`-初始化信道偏移的功能
`'zeros'`（默认）|`“的”`|`'窄正常'`|功能手柄

初始化频道偏移的函数，指定为以下之一：

'zeros'—初始化通道偏移量为0。
“的”- 用初始化频道偏移量。
'窄正常'-初始化通道偏移独立采样从一个正态分布的零平均值和标准偏差0.01。
功能句柄 - 使用自定义功能初始化频道偏移量。如果指定函数句柄，则函数必须是表单Offset = Func（SZ）,在那里SZ.是规模的大小。例如，看到指定自定义权重初始化功能。

该图层仅初始化频道偏移量时抵消财产是空的。

数据类型：字符|细绳|function_handle.

`规模`-渠道规模因素
`［］`（默认）|数字数组

渠道规模因素γ，指定为数字数组。

信道比例因子是可学习参数。培训网络时，如果规模是不是空的，然后Trainnetwork.用来规模属性作为初始值。如果规模是空的，然后Trainnetwork.使用指定的初始化程序ScaleInitializer。

在培训时间，规模是以下其中之一:

对于2-D图像输入，一个大小的数字阵列1-by-1-by-NumChannels.
对于3-D图像输入，1-×1-1-by-1-by-1-by-1-by-1-by-1的数字阵列数组NumChannels.
对于特征或序列输入，大小的数字数组NumChannels.1

`抵消`-渠道偏移
`［］`（默认）|数字数组

渠道偏移β，指定为数字数组。

频道偏移是可学习参数。培训网络时，如果抵消是不是空的，然后Trainnetwork.用来抵消属性作为初始值。如果抵消是空的，然后Trainnetwork.使用指定的初始化程序OffsetInitializer。

在培训时间，抵消是以下其中之一:

对于2-D图像输入，一个大小的数字阵列1-by-1-by-NumChannels.
对于3-D图像输入，1-×1-1-by-1-by-1-by-1-by-1-by-1的数字阵列数组NumChannels.
对于特征或序列输入，大小的数字数组NumChannels.1

`意味着`-移动平均计算的衰减值
0.1（默认）|数字标量`0.`和`1`

移动平均值计算的衰减值，指定为介于之间的数值标量0.和1。

当'BatchnormalizationStatistics'训练方法是'移动'，在每次迭代时，该层使用

$μ^{*} = λ_{μ} \hat{μ} + （ 1 - λ_{μ} ） μ 那$

在哪里 $μ^{*}$ 表示更新的均值， $λ_{μ}$ 表示平均衰减值， $\hat{μ}$ 表示输入层的平均值，和 $μ$ 表示移动平均值的最新值。

如果是'BatchnormalizationStatistics'训练方法是'人口'，则此选项无效。

数据类型：单身的|双

`VarianceDecay`-移动方差计算的衰减值
0.1（默认）|数字标量`0.`和`1`

移动方差计算的衰减值，指定为之间的数值标量0.和1。

当'BatchnormalizationStatistics'训练方法是'移动'，在每次迭代时，图层使用移动方差值更新

$σ^{2}^{*} = λ_{σ^{2}} \hat{σ^{2}} + （ 1 - λ_{σ^{2}} ） σ^{2} 那$

在哪里 $σ^{2}^{*}$ 表示更新的方差， $λ_{σ^{2}}$ 表示方差衰减值， $\hat{σ^{2}}$ 表示输入层的方差，和 $σ^{2}$ 表示移动方差值的最新值。

如果是'BatchnormalizationStatistics'训练方法是'人口'，则此选项无效。

数据类型：单身的|双

学习速度和正规化

`ScaleLearnratefactor.`-学习率因素规模因素
1（默认）|非负标量

学习率因子为尺度因子，指定为非负标量。

该软件通过全局学习率乘以此因素来确定图层中的比例因子的学习率。例如，如果ScaleLearnratefactor.是2然后，图层中的比例因子的学习率是当前全球学习率的两倍。该软件根据指定的设置确定全局学习速率培训选项功能。

`offsetlearnratefactor.`-偏移的学习率因子
1（默认）|非负标量

偏移的学习率因子，指定为非负标量。

该软件通过全局学习速率乘以此因素来确定层中偏移的学习速率。例如，如果offsetlearnratefactor.等于2然后，图层中偏移的学习率是当前全球学习率的两倍。该软件根据指定的设置确定全局学习速率培训选项功能。

`尺寸尺寸`-L.₂规模因子的正则化因素
1（默认）|非负标量

L.₂规模因子的正则化因子，指定为非负标量。

该软件将此因素乘以全球l₂正则化因子确定图层中的比例因子的学习率。例如，如果尺寸尺寸是2，然后是l₂对层中偏移量的正则化是全局L的两倍₂正则化因素。您可以指定全球l₂正则化因子使用培训选项功能。

`OffsetL2Factor`-L.₂偏移的正则化因子
1（默认）|非负标量

L.₂偏移的正则化因子，指定为非负标量。

该软件将此因素乘以全球l₂正规化因子确定层中偏移中的学习速率。例如，如果OffsetL2Factor是2，然后是l₂对层中偏移量的正则化是全局L的两倍₂正则化因素。您可以指定全球l₂正则化因子使用培训选项功能。

层

`名称`-图层名称
`''`（默认）|特征向量|字符串标量

图层名称，指定为字符向量或字符串标量。要在图层图中包含一个图层，必须指定非空，唯一的图层名称。如果您使用该图层培训系列网络名称被设置为''，然后软件会自动为培训时间分配给图层的名称。

数据类型：字符|细绳

`NumInputs`-输入数量
1(默认)

层的输入数。此图层仅接受单个输入。

数据类型：双

`输入名称`-输入名称
`{'在'}`(默认)

图层的输入名称。此图层仅接受单个输入。

数据类型：细胞

`numoutput.`-输出数量
1(默认)

图层的输出数。此图层仅具有单个输出。

数据类型：双

`OutputNames`-输出名称
`{'出去'}`(默认)

图层的输出名称。此图层仅具有单个输出。

数据类型：细胞

例子

全部收缩

创建批量归一化层

打开直播脚本

使用名称创建批量归一化层'bn1'。

tallay = batchnormalizationlayer（'名称'那'bn1'）

TALLES = BATCHNORMALIZALLAYER具有属性：名称：'BN1'NUMCHANNELS：'AUTO'训练：[]培训variance：[] virtparameters意味着：0.1000 variancecay：0.1000 epsilon：1.0000E-05学习参数偏移量：[]缩放：[]显示所有属性

在层大批。

layers = [imageInputLayer([32 32 3])卷积2dlayer (3,16，“填充”1）BatchnormalizationLayer Ruilulayer MaxPooling2dlayer（2，'走吧'，2）卷积2dlayer（3,32，“填充”，1）BatchnormalizationLayer Rublayer全连接列（10）SoftMaxLayer分类层]

图层= 11x1图层数组:1”的形象输入32 x32x3图像zerocenter正常化2”卷积16 3 x3的隆起与步幅[1]和填充[1 1 1 1]3“批量标准化批量标准化4”ReLU ReLU 5”麦克斯池2 x2马克斯池步(2 - 2)和填充[0 0 0 0]6”卷积32 3 x3的隆起与步幅[1]和填充[1 1 1 1]7 '' Batch Normalization Batch normalization 8 '' ReLU ReLU 9 '' Fully Connected 10 fully connected layer 10 '' Softmax softmax 11 '' Classification Output crossentropyex

算法

批量归一化操作将元素标准化X_一世首先计算平均值μ_B.和方差σ_B.²在每个通道的空间，时间和观察尺寸上独立地。然后，它计算规范化的激活

$\hat{X_{一世}} = \frac{X_{一世} - μ_{B.}}{\sqrt{σ_{B.}^{2} + ϵ}} 那$

在哪里ϵ当方差非常小时，这是一个常数，提高数值稳定性。

为了允许具有零均值和单位方差的输入的可能性对于跟随批量归一化的操作而不是最佳，批量归一化操作进一步换档并使用转换缩放激活

$y_{一世} = γ {\hat{X}}_{一世} + β 那$

哪里偏移β和规模因子γ是在网络培训期间更新的可学习参数。

为了在训练后使用网络进行预测，批量归一化需要一个固定的均值和方差来对数据进行归一化。这个固定的平均值和方差可以从训练后的训练数据中计算出来，或者在训练期间使用运行统计计算来近似。

该层使用了训练有训练和TrainedVariance在预测期间规范化输入。

参考文献

[1] Ioffe，Sergey和Christian Szegedy。“批量标准化：通过减少内部协变速转移加速深度网络培训。”预印本,arXiv: 1502.03167(2015)。

扩展能力

C / c++代码生成
使用MATLAB®Coder™生成C和C ++代码。

GPU代码生成
使用GPU Coder™为NVIDIA®GPU生成CUDA®代码。

也可以看看

话题

在R2017B中介绍

BatchnormalizationLayer.

描述

创建

句法

描述

特性

批量归一化

训练有训练-用于预测的平均统计数字数组

TrainedVariance-用于预测的方差统计数字数组

埃斯利昂-常数添加到迷你批次差异1E-5（默认）|数字标量

NumChannels.-输入通道数'汽车'（默认）|正整数

参数和初始化

ScaleInitializer-初始化信道比例因子的功能“的”（默认）|'窄正常'|功能手柄

OffsetInitializer-初始化信道偏移的功能'zeros'（默认）|“的”|'窄正常'|功能手柄

规模-渠道规模因素［］（默认）|数字数组

抵消-渠道偏移［］（默认）|数字数组

意味着-移动平均计算的衰减值0.1（默认）|数字标量0.和1

VarianceDecay-移动方差计算的衰减值0.1（默认）|数字标量0.和1

学习速度和正规化

ScaleLearnratefactor.-学习率因素规模因素1（默认）|非负标量

offsetlearnratefactor.-偏移的学习率因子1（默认）|非负标量

尺寸尺寸-L.2规模因子的正则化因素1（默认）|非负标量

OffsetL2Factor-L.2偏移的正则化因子1（默认）|非负标量

层

名称-图层名称''（默认）|特征向量|字符串标量

NumInputs-输入数量1(默认)

输入名称-输入名称{'在'}(默认)

numoutput.-输出数量1(默认)

OutputNames-输出名称{'出去'}(默认)

例子

创建批量归一化层

更多关于

批量归一化层

算法

参考文献

扩展能力

C / c++代码生成使用MATLAB®Coder™生成C和C ++代码。

GPU代码生成使用GPU Coder™为NVIDIA®GPU生成CUDA®代码。

也可以看看

话题

深度学习工具箱文档

金宝app

介绍MATLAB深度学习

`训练有训练`-用于预测的平均统计
数字数组

`TrainedVariance`-用于预测的方差统计
数字数组

`埃斯利昂`-常数添加到迷你批次差异
`1E-5`（默认）|数字标量

`NumChannels.`-输入通道数
`'汽车'`（默认）|正整数

`ScaleInitializer`-初始化信道比例因子的功能
`“的”`（默认）|`'窄正常'`|功能手柄

`OffsetInitializer`-初始化信道偏移的功能
`'zeros'`（默认）|`“的”`|`'窄正常'`|功能手柄

`规模`-渠道规模因素
`［］`（默认）|数字数组

`抵消`-渠道偏移
`［］`（默认）|数字数组

`意味着`-移动平均计算的衰减值
0.1（默认）|数字标量`0.`和`1`

`VarianceDecay`-移动方差计算的衰减值
0.1（默认）|数字标量`0.`和`1`

`ScaleLearnratefactor.`-学习率因素规模因素
1（默认）|非负标量

`offsetlearnratefactor.`-偏移的学习率因子
1（默认）|非负标量

`尺寸尺寸`-L.₂规模因子的正则化因素
1（默认）|非负标量

`OffsetL2Factor`-L.₂偏移的正则化因子
1（默认）|非负标量

`名称`-图层名称
`''`（默认）|特征向量|字符串标量

`NumInputs`-输入数量
1(默认)

`输入名称`-输入名称
`{'在'}`(默认)

`numoutput.`-输出数量
1(默认)

`OutputNames`-输出名称
`{'出去'}`(默认)

C / c++代码生成
使用MATLAB®Coder™生成C和C ++代码。

GPU代码生成
使用GPU Coder™为NVIDIA®GPU生成CUDA®代码。