主要内容

规范化

规范化数据

描述

例子

N=正常化(一个返回向量方向的值z-得分的数据一个具有中心0和标准偏差1。

  • 如果一个那么,这是一个向量规范化作用于整个向量。

  • 如果一个那么,是矩阵、表格还是时间表呢规范化分别对每一列数据进行操作。

  • 如果一个是一个多维数组吗规范化沿大小不等于1的第一个数组维度操作。

例子

N=正常化(一个昏暗的返回z沿着维度得分昏暗的.例如,正常化(2)规范化每一行。

例子

N=正常化(___方法指定具有以前的任何语法的常规方法。例如,规范化(一种“规范”)规范化中的数据一个欧几里得范数(2-范数)

例子

N=正常化(___方法methodtype指定给定方法的归一化类型。例如,规范化(A,'Norm',INF)规范化中的数据一个使用Infinity Norm。

N=正常化(___,'中央',centertype","规模",,scaletype使用'中央'“规模”方法。这些是唯一可以一起使用的方法。如果没有指定centertypescaletype,然后标准化使用该方法的默认方法类型(中心为0,并按标准偏差进行缩放)。

在任意中心和缩放类型中使用此语法可以同时执行这两种方法。例如,N =正常化(A,“中心”,“中等”,“规模”,“疯狂”).您还可以使用此语法来指定中心和比例值C年代从先前计算的归一化。例如,归一化一个数据集并保存参数[N1,C,S]=标准化(A1). 然后,在不同的数据集上使用n2 =正常化(A2,'Center',C,'Scale',S)

例子

N=正常化(___,“数据变量”,Datavars.(可选)指定当输入数据位于表或时间表中时要对哪些变量进行操作。您可以将此选项与前面的任何语法一起使用。

NC年代) =正常化(___另外,返回定心和缩放值C年代用于执行规范化。然后,可以使用中的值对不同的输入数据进行规范化C年代使用命令n =标准化(A2,'Center',C,'Scale',S)

例子

全部崩溃

通过计算z-score将矢量和矩阵中的数据归一化。

创建矢量v并计算z分数,将数据归一化,使其均值为0,标准差为1。

v = 1:5;N =正常化(v)
N =1×5-1.2649 -0.6325 0.6325 1.2649

创建一个矩阵B并计算每列的z分数。然后,每行标准化。

B =魔法(3)
B =3×38 1 6 3 5 7 4 9 2
n1 =标准化(b)
N1=3×31.1339 -1.0000 0.3780 -0.7559 0 0.7559 -0.3780 1.0000 -1.1339
N2 =正常化(B, 2)
N2 =3×30.1021 -1.1094 0.2774 -1.0000 0 1.0000 -0.2774 1.1094 -0.8321

规模一个向量一个根据其标准偏差。

A=1:5;Ns=标准化(A,“规模”
Ns =1×50.6325 1.2649 1.8974 2.5298 3.1623

规模一个因此其范围在间隔[0,1]。

Nr =正常化(,'范围'
天然橡胶=1×50 0.2500 0.5000 0.7500 1.0000

创建矢量一个并通过其1常态将其标准化。

一个= 1:5;Np =正常化(,“规范”, 1)
Np=1×50.0667 0.1333 0.2000 0.2667 0.3333

将数据集中在一个所以均值是0。

nc =标准化(a,'中央'“中庸”
数控=1×5-2 -1 0 1 2

创建一个包含五个人的高度信息的表。

LastName = {“桑切斯”“约翰逊”'lee''迪亚兹''棕色的'}; 高度=[71;69;64;67;64]; T=表格(姓氏、高度)
t =5×2表姓氏身高uuuuuuuuuuuuuuuuuuuuuuuuuu uuu uuu uuu uuuu uuu uu uuu uuu uuu uuuuu uuu uu uu

根据最大高度对高度数据进行归一化。

N=标准化(T,“规范”正,“DataVariables”“高度”
N=5×2表姓氏高度_________ _______ 'Sanchez' 1 'Johnson' 0.97183 'Lee' 0.90141 'Diaz' 0.94366 'Brown' 0.90141

对数据集进行规范化,返回计算出的参数值,并重用这些参数以将相同的规范化应用于另一个数据集。

使用两个变量创建时间表:温度风速.然后用同样的变量创建第二个时间表,但是用的是一年后的样本。

rng默认time1 =(DateTime(2019,1,1):天(1):Datetime(2019,1,10))';温度= RANDI([10 40],10,1);Windspeed = Randi([020],10,1);T1 =时间表(温度,风速,“RowTimes”Time1)
T1=10×2时间表时间温度风速___________ ___________ _________ 01-一月-2019 35 3 02-一月-2019 38 20 03-一月-2019 13 20 04-一月-2019 38 10 05-一月-2019 29 16 06-一月-2019 13 2 07-一月-2019 18 8 08-一月-2019 26 19 09-一月-2019 39 16 10-一月-2019 39 20
Time2=(datetime(2020,1,1):days(1):datetime(2020,1,10));温度=兰迪([10 40],10,1);风速=兰迪([0 20],10,1);T2=时刻表(温度、风速、,“RowTimes”,时间2)
T2=10×2时间表时间温度风速___________ ___________ _________ 01-Jan-2020 30 14 02-Jan-2020 11 0 03-JAN-2020 36 5 04-JAN-2020 3月05-JAN-2020 31 2 06-JAN-2020 33 17 07-Jan-2020 33 14 08-Jan-2020 22 6 09-Jan-2020 30 19 10-Jan-2020 15 0

标准化第一个时间表。指定三个输出:归一化表,以及居中和缩放参数值C年代函数用来执行标准化。

[T1_norm C S] =正常化(T1)
T1_范数=10×2时间表时间温度风速___________ ___________ _________ 01- 1- 2019 0.57687 -1.4636 02- 1- 2019 0.856 0.92885 03- 1- 2019 -1.4701 0.92885 04- 1- 2019 0.856 -0.4785 05- 1- 2019 0.018609 0.36591 06- 1- 2019 -1.4701 -1.6044 07- 1- 2019 -1.0049 -0.75997 08- 1- 2019 -0.26052 0.8812 09- 1- 2019 0.94905 0.36591 10- 1- 2019 0.94905 0.92885
C =1×2表温度风速28.8 13.4
S =1×2表温度风速_____________________ 10.748 7.1056

现在让第二个时间表正常化T2.使用第一次标准化中的参数值。此技术确保数据在T2.以相同的方式居中和缩放T1.

T2_norm=标准化(T2,“中心”C“规模”,年代)
T2_范数=10×2时间表(UUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUU0.11165 0.78812 2020年1月10日-1.284-1.8858

默认情况下,规范化在任何变量上运行T2.也存在C年代. 规范化中变量子集的步骤T2.,指定要对其进行操作的变量“DataVariables”名称值参数。您指定的变量子集必须存在C年代

指定风速作为要进行操作的数据变量。规范化对该变量进行操作并返回温度不变。

T2_partial =正常化(T2,“中心”C“规模”年代,“datavariables”“风速”
t2_partial =.10×2时间表时间温度风速___________ ___________ _________ 01- 1- 2020 30 0.084441 02- 1- 2020 11 -1.8858 03- 1- 2020 36 -1.1822 04- 1- 2020 38 -1.8858 05- 1- 2020 31 -1.6044 06- 1- 2020 33 0.50665 07- 1- 2020 33 0.084441 08- 1- 2020 22 -1.0414 09- 1- 2020 30 0.8812 10- 1- 2020 15 -1.8858

输入参数

全部崩溃

输入数据,指定为标量,矢量,矩阵,多维数组,表或时间表。

如果一个是一个数字数组并有类型单身的,则输出也有type单身的.否则,输出具有类型双倍的

规范化忽略了价值一个

数据类型:双倍的|单身的|桌子|时间表
复数的支持:金宝app是的

维度运行,指定为正整数标量。

数据类型:双倍的|单身的|int8|int16|int32|INT64.|uint8.|uint16|UINT32|UINT64

标准化方法,指定为以下选项之一:

方法

描述

“zscore”

z-得分均值为0,标准差为1

“规范”

2-norm

“规模”

标准差标度

'范围'

rescale.数据范围到[0,1]

'中央'

中心数据均值为0

“medianiqr”

中心和比例数据的中位数为0和四分位区间1

要返回函数用于规范化数据的参数,请指定C年代输出参数。

方法类型,指定为数组、表、2元素行向量或类型名称,具体取决于指定的方法:

方法

方法类型选项

描述

“zscore”

“性病”(默认)

中心和刻度的平均值为0,标准偏差为1

'强壮的'

中位数为0和平均绝对偏差1

“规范”

正值标量(默认为2)

p规范

无限常态

“规模”

“性病”(默认)

标准差标度

'疯狂的'

按比例平均绝对偏差

“第一”

按数据的第一个元素进行缩放。

“差”

规模数据四分位区间

数字数组

按数字值缩放数据。数组必须有兼容的大小投入一个

表格

使用表中的变量进行缩放数据。每个表变量在输入数据中一个使用缩放表中同名变量中的值进行缩放。

'范围'

2元素行向量(默认值为[0 1])

rescale.数据到窗体的一个间隔的范围[甲、乙], 在哪里< b

'中央'

“中庸”(默认)

中心的平均值为0。

“中位数”

中心有中位数0。

数字数组

按数值移动中心。数组必须有兼容的大小投入一个

表格

使用表中的变量移动中心。输入数据中的每个表变量一个使用居中表中名称类似的变量中的值居中。

要返回函数用于规范化数据的参数,请指定C年代输出参数。

中心和比例方法类型,指定为任何有效methodtype选择'中央'“规模”方法。见methodtype每个方法的可用选项列表的参数描述。

例子:N=标准化(A,'center',C,'scale',S)

表变量要操作,指定为此表中的选项之一。Datavars.表示要标准化的输入表的哪些变量。未指定的表中的其他变量Datavars.通过到输出而不被操作。

选项 描述 例子
变量的名称

指定单表变量名称的字符向量或标量标题

“Var1”

“var1”

变量名向量

字符向量或字符串数组的单元格数组,其中每个元素都是一个表变量名

{“Var1”“Var2”}

[“var1”“var2”]

可变指标的标量或向量

表变量索引的标量或向量

1

[1 3 5]

逻辑向量

逻辑向量,其每个元素对应一个表变量,其中真的包含相应的变量和不包括它

(真的假的真的)

功能手柄

接受表变量作为输入并返回逻辑标量的函数句柄

@Isnumeric.

vartype下标

由此生成的表格下标vartype功能

vartype(数字)

例子:正常化(t,'norm','datavariables',[“var1”“var2”“var4”))

输出参数

全部崩溃

规格化的值,作为数组、表或时间表返回。N是否与输入数据大小相同一个

规范化一般对输入表和时间表的所有变量起作用,但以下情况除外:

  • 如果您指定“DataVariables”,然后规范化只对指定的变量进行操作,而将数据中的其他变量返回N未改性。

  • 如果使用语法正常化(t,'中心',c,'scale',s)使标准化使一张桌子或时间表正常化T使用以前计算的参数C年代,然后规范化中的变量名自动使用C年代确定数据变量T手术。中的其他变量T归还N未改性。

居中值,作为数组或表返回。

一个是一个数组,规范化返回C年代作为数组,以便N = (a - c) ./ s.每个值在C是用于沿指定尺寸执行标准化的中心值。例如,如果一个是一个10乘10的数据矩阵和规范化那么,作用于第一维C是一个1×10矢量,其中每个列的居中值一个

一个是一张桌子或时间表,规范化返回C年代作为包含每个标准化表格变量的中心和比例的表格,N.Var=(A.Var-C.Var)。/S.Var.的表变量名C年代匹配输入中的相应表变量。每个变量C包含用于标准化类似指数的居中值一个

可缩放的值,作为数组或表返回。

一个是一个数组,规范化返回C年代作为数组,以便N = (a - c) ./ s.每个值在年代是用于沿指定维度执行规格化的缩放值。例如,如果一个是一个10乘10的数据矩阵和规范化那么,作用于第一维年代一个1乘10的向量是否包含每个列的比例值一个

一个是一张桌子或时间表,规范化返回C年代作为包含每个标准化表格变量的中心和比例的表格,N.Var=(A.Var-C.Var)。/S.Var.的表变量名C年代匹配输入中的相应表变量。每个变量年代包含用于规范化中类似命名变量的缩放值一个

更多关于

全部崩溃

Z分数

对于随机变量X用平均μ和标准差σ表示z-分数x z x μ σ 对于具有均值的样本数据 X ¯ 和标准偏差年代,z-数据点的得分x z x X ¯ 年代

z-scores用标准偏差来衡量一个数据点到平均值的距离。标准化数据集的均值为0,标准差为1,并且保留了原始数据集的形状属性(同样的偏度和峰度)。

P-规范

一般定义p向量的范数vN元素

v p k 1 N | v k | p 1 / p

在哪里p是任何正实值,, 要么. 一些共同的价值观p是:

  • 如果p为1,则得到的1范数是向量元素绝对值的和。

  • 如果p是2,所得到的2-Norm给出了载体的矢量幅度或欧几里德长度。

  • 如果p,然后 v 最大值 | v |

重新扫视

重新缩放通过沿数字线拉伸或挤压点来改变MIN和MAX值之间的距离。的z保留数据的-Scores,因此分配的形状保持不变。

重新定义数据的等式X任意间隔[甲、乙]

X r e 年代 c 一个 l e d 一个 + X X 最大值 X X b 一个

规范化重新调节功能可以将数据重新归类为任何任意间隔,重新调节还允许将输入数据裁剪为指定的最小值和最大值。

四分位区间

数据集的四分位数范围(IQR)描述了在对值进行排序时中间50%值的范围。如果数据的中位数是问题2,数据下半部分的中位数为Q1,数据的上半部分的中位数是第三季度,然后 Iqr = q3 - q1

当数据包含异常值(非常大或非常小的值)时,通常首选IQR,而不是查看整个数据范围,因为IQR排除了数据中最大的25%和最小的25%的值。

平均绝对偏差

数据集的绝对偏差(Mad)是中位数绝对偏差的中位数值 X 其中数据: 疯狂的 中位数 | x X | . 因此,MAD描述了数据相对于中位数的可变性。

当数据包含异常值(非常大或非常小的值)时,通常首选MAD而不是使用数据的标准偏差,因为标准偏差与平均值成平方差,使异常值产生过大的影响。相反,少量异常值的偏差不会影响MAD的值。

扩展能力

介绍了R2018a