规范化数据
指定给定方法的归一化类型。例如,N
=正常化(___,方法
,methodtype
)规范化(A,'Norm',INF)
规范化中的数据一个
使用Infinity Norm。
使用N
=正常化(___,'中央',centertype
","规模",,scaletype
)'中央'
和“规模”
方法。这些是唯一可以一起使用的方法。如果没有指定centertype
或scaletype
,然后标准化使用该方法的默认方法类型(中心为0,并按标准偏差进行缩放)。
在任意中心和缩放类型中使用此语法可以同时执行这两种方法。例如,N =正常化(A,“中心”,“中等”,“规模”,“疯狂”)
.您还可以使用此语法来指定中心和比例值C
和年代
从先前计算的归一化。例如,归一化一个数据集并保存参数[N1,C,S]=标准化(A1)
. 然后,在不同的数据集上使用n2 =正常化(A2,'Center',C,'Scale',S)
.
通过计算z-score将矢量和矩阵中的数据归一化。
创建矢量v
并计算z分数,将数据归一化,使其均值为0,标准差为1。
v = 1:5;N =正常化(v)
N =1×5-1.2649 -0.6325 0.6325 1.2649
创建一个矩阵B
并计算每列的z分数。然后,每行标准化。
B =魔法(3)
B =3×38 1 6 3 5 7 4 9 2
n1 =标准化(b)
N1=3×31.1339 -1.0000 0.3780 -0.7559 0 0.7559 -0.3780 1.0000 -1.1339
N2 =正常化(B, 2)
N2 =3×30.1021 -1.1094 0.2774 -1.0000 0 1.0000 -0.2774 1.1094 -0.8321
规模一个向量一个
根据其标准偏差。
A=1:5;Ns=标准化(A,“规模”)
Ns =1×50.6325 1.2649 1.8974 2.5298 3.1623
规模一个
因此其范围在间隔[0,1]。
Nr =正常化(,'范围')
天然橡胶=1×50 0.2500 0.5000 0.7500 1.0000
创建矢量一个
并通过其1常态将其标准化。
一个= 1:5;Np =正常化(,“规范”, 1)
Np=1×50.0667 0.1333 0.2000 0.2667 0.3333
将数据集中在一个
所以均值是0。
nc =标准化(a,'中央',“中庸”)
数控=1×5-2 -1 0 1 2
创建一个包含五个人的高度信息的表。
LastName = {“桑切斯”;“约翰逊”;'lee';'迪亚兹';'棕色的'}; 高度=[71;69;64;67;64]; T=表格(姓氏、高度)
t =5×2表姓氏身高uuuuuuuuuuuuuuuuuuuuuuuuuu uuu uuu uuu uuuu uuu uu uuu uuu uuu uuuuu uuu uu uu
根据最大高度对高度数据进行归一化。
N=标准化(T,“规范”正,“DataVariables”,“高度”)
N=5×2表姓氏高度_________ _______ 'Sanchez' 1 'Johnson' 0.97183 'Lee' 0.90141 'Diaz' 0.94366 'Brown' 0.90141
对数据集进行规范化,返回计算出的参数值,并重用这些参数以将相同的规范化应用于另一个数据集。
使用两个变量创建时间表:温度
和风速
.然后用同样的变量创建第二个时间表,但是用的是一年后的样本。
rng默认time1 =(DateTime(2019,1,1):天(1):Datetime(2019,1,10))';温度= RANDI([10 40],10,1);Windspeed = Randi([020],10,1);T1 =时间表(温度,风速,“RowTimes”Time1)
T1=10×2时间表时间温度风速___________ ___________ _________ 01-一月-2019 35 3 02-一月-2019 38 20 03-一月-2019 13 20 04-一月-2019 38 10 05-一月-2019 29 16 06-一月-2019 13 2 07-一月-2019 18 8 08-一月-2019 26 19 09-一月-2019 39 16 10-一月-2019 39 20
Time2=(datetime(2020,1,1):days(1):datetime(2020,1,10));温度=兰迪([10 40],10,1);风速=兰迪([0 20],10,1);T2=时刻表(温度、风速、,“RowTimes”,时间2)
T2=10×2时间表时间温度风速___________ ___________ _________ 01-Jan-2020 30 14 02-Jan-2020 11 0 03-JAN-2020 36 5 04-JAN-2020 3月05-JAN-2020 31 2 06-JAN-2020 33 17 07-Jan-2020 33 14 08-Jan-2020 22 6 09-Jan-2020 30 19 10-Jan-2020 15 0
标准化第一个时间表。指定三个输出:归一化表,以及居中和缩放参数值C
和年代
函数用来执行标准化。
[T1_norm C S] =正常化(T1)
T1_范数=10×2时间表时间温度风速___________ ___________ _________ 01- 1- 2019 0.57687 -1.4636 02- 1- 2019 0.856 0.92885 03- 1- 2019 -1.4701 0.92885 04- 1- 2019 0.856 -0.4785 05- 1- 2019 0.018609 0.36591 06- 1- 2019 -1.4701 -1.6044 07- 1- 2019 -1.0049 -0.75997 08- 1- 2019 -0.26052 0.8812 09- 1- 2019 0.94905 0.36591 10- 1- 2019 0.94905 0.92885
C =1×2表温度风速28.8 13.4
S =1×2表温度风速_____________________ 10.748 7.1056
现在让第二个时间表正常化T2.
使用第一次标准化中的参数值。此技术确保数据在T2.
以相同的方式居中和缩放T1.
.
T2_norm=标准化(T2,“中心”C“规模”,年代)
T2_范数=10×2时间表(UUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUU0.11165 0.78812 2020年1月10日-1.284-1.8858
默认情况下,规范化
在任何变量上运行T2.
也存在C
和年代
. 规范化中变量子集的步骤T2.
,指定要对其进行操作的变量“DataVariables”
名称值参数。您指定的变量子集必须存在C
和年代
.
指定风速
作为要进行操作的数据变量。规范化
对该变量进行操作并返回温度
不变。
T2_partial =正常化(T2,“中心”C“规模”年代,“datavariables”,“风速”)
t2_partial =.10×2时间表时间温度风速___________ ___________ _________ 01- 1- 2020 30 0.084441 02- 1- 2020 11 -1.8858 03- 1- 2020 36 -1.1822 04- 1- 2020 38 -1.8858 05- 1- 2020 31 -1.6044 06- 1- 2020 33 0.50665 07- 1- 2020 33 0.084441 08- 1- 2020 22 -1.0414 09- 1- 2020 30 0.8812 10- 1- 2020 15 -1.8858
一个
- - - - - -输入数据输入数据,指定为标量,矢量,矩阵,多维数组,表或时间表。
如果一个
是一个数字数组并有类型单身的
,则输出也有type单身的
.否则,输出具有类型双倍的
.
规范化
忽略了南
价值一个
.
数据类型:双倍的
|单身的
|桌子
|时间表
复数的支持:金宝app是的
昏暗的
- - - - - -维维度运行,指定为正整数标量。
数据类型:双倍的
|单身的
|int8
|int16
|int32
|INT64.
|uint8.
|uint16
|UINT32
|UINT64
methodtype
- - - - - -方法类型方法类型,指定为数组、表、2元素行向量或类型名称,具体取决于指定的方法:
方法 |
方法类型选项 |
描述 |
---|---|---|
|
|
中心和刻度的平均值为0,标准偏差为1 |
|
中位数为0和平均绝对偏差1 |
|
|
正值标量(默认为2) |
p规范 |
|
无限常态 | |
|
|
标准差标度 |
|
按比例平均绝对偏差. | |
|
按数据的第一个元素进行缩放。 | |
|
规模数据四分位区间. | |
数字数组 |
按数字值缩放数据。数组必须有兼容的大小投入一个 . |
|
表格 |
使用表中的变量进行缩放数据。每个表变量在输入数据中一个 使用缩放表中同名变量中的值进行缩放。 |
|
|
2元素行向量(默认值为[0 1]) |
rescale.数据到窗体的一个间隔的范围[甲、乙] , 在哪里< b . |
|
|
中心的平均值为0。 |
|
中心有中位数0。 | |
数字数组 |
按数值移动中心。数组必须有兼容的大小投入一个 . |
|
表格 |
使用表中的变量移动中心。输入数据中的每个表变量一个 使用居中表中名称类似的变量中的值居中。 |
centertype
,scaletype
- - - - - -中心和刻度方法类型中心和比例方法类型,指定为任何有效methodtype
选择'中央'
或“规模”
方法。见methodtype
每个方法的可用选项列表的参数描述。
例子:N=标准化(A,'center',C,'scale',S)
Datavars.
- - - - - -表变量操作vartype
下标表变量要操作,指定为此表中的选项之一。Datavars.
表示要标准化的输入表的哪些变量。未指定的表中的其他变量Datavars.
通过到输出而不被操作。
选项 | 描述 | 例子 |
---|---|---|
变量的名称 | 指定单表变量名称的字符向量或标量标题 |
|
变量名向量 | 字符向量或字符串数组的单元格数组,其中每个元素都是一个表变量名 |
|
可变指标的标量或向量 | 表变量索引的标量或向量 |
|
逻辑向量 | 逻辑向量,其每个元素对应一个表变量,其中 |
|
功能手柄 | 接受表变量作为输入并返回逻辑标量的函数句柄 |
|
vartype 下标 |
由此生成的表格下标 |
|
例子:正常化(t,'norm','datavariables',[“var1”“var2”“var4”))
N
-归一化值规格化的值,作为数组、表或时间表返回。N
是否与输入数据大小相同一个
.
规范化
一般对输入表和时间表的所有变量起作用,但以下情况除外:
如果您指定“DataVariables”
,然后规范化
只对指定的变量进行操作,而将数据中的其他变量返回N
未改性。
如果使用语法正常化(t,'中心',c,'scale',s)
使标准化使一张桌子或时间表正常化T
使用以前计算的参数C
和年代
,然后规范化
中的变量名自动使用C
和年代
确定数据变量T
手术。中的其他变量T
归还N
未改性。
C
——中心值居中值,作为数组或表返回。
当一个
是一个数组,规范化
返回C
和年代
作为数组,以便N = (a - c) ./ s
.每个值在C
是用于沿指定尺寸执行标准化的中心值。例如,如果一个
是一个10乘10的数据矩阵和规范化
那么,作用于第一维C
是一个1×10矢量,其中每个列的居中值一个
.
当一个
是一张桌子或时间表,规范化
返回C
和年代
作为包含每个标准化表格变量的中心和比例的表格,N.Var=(A.Var-C.Var)。/S.Var
.的表变量名C
和年代
匹配输入中的相应表变量。每个变量C
包含用于标准化类似指数的居中值一个
.
年代
- 缩放值可缩放的值,作为数组或表返回。
当一个
是一个数组,规范化
返回C
和年代
作为数组,以便N = (a - c) ./ s
.每个值在年代
是用于沿指定维度执行规格化的缩放值。例如,如果一个
是一个10乘10的数据矩阵和规范化
那么,作用于第一维年代
一个1乘10的向量是否包含每个列的比例值一个
.
当一个
是一张桌子或时间表,规范化
返回C
和年代
作为包含每个标准化表格变量的中心和比例的表格,N.Var=(A.Var-C.Var)。/S.Var
.的表变量名C
和年代
匹配输入中的相应表变量。每个变量年代
包含用于规范化中类似命名变量的缩放值一个
.
对于随机变量X用平均μ和标准差σ表示z-分数x是 对于具有均值的样本数据 和标准偏差年代,z-数据点的得分x是
z-scores用标准偏差来衡量一个数据点到平均值的距离。标准化数据集的均值为0,标准差为1,并且保留了原始数据集的形状属性(同样的偏度和峰度)。
一般定义p向量的范数v有N元素
在哪里p是任何正实值,正
, 要么负
. 一些共同的价值观p是:
如果p为1,则得到的1范数是向量元素绝对值的和。
如果p是2,所得到的2-Norm给出了载体的矢量幅度或欧几里德长度。
如果p是正
,然后
.
重新缩放通过沿数字线拉伸或挤压点来改变MIN和MAX值之间的距离。的z保留数据的-Scores,因此分配的形状保持不变。
重新定义数据的等式X
任意间隔[甲、乙]
是
而规范化
和重新调节
功能可以将数据重新归类为任何任意间隔,重新调节
还允许将输入数据裁剪为指定的最小值和最大值。
数据集的四分位数范围(IQR)描述了在对值进行排序时中间50%值的范围。如果数据的中位数是问题2,数据下半部分的中位数为Q1,数据的上半部分的中位数是第三季度,然后 .
当数据包含异常值(非常大或非常小的值)时,通常首选IQR,而不是查看整个数据范围,因为IQR排除了数据中最大的25%和最小的25%的值。
数据集的绝对偏差(Mad)是中位数绝对偏差的中位数值 其中数据: . 因此,MAD描述了数据相对于中位数的可变性。
当数据包含异常值(非常大或非常小的值)时,通常首选MAD而不是使用数据的标准偏差,因为标准偏差与平均值成平方差,使异常值产生过大的影响。相反,少量异常值的偏差不会影响MAD的值。
使用说明和限制:
输出C
和年代
不受支持。金宝app
的'中央'
和“规模”
方法不能同时指定。
支持的方金宝app法类型'中央'
是:“中庸”
,“中位数”
,或数字标量。
支持的方金宝app法类型“规模”
是:“性病”
,'疯狂的'
,“第一”
,或数字标量。
的“DataVariables”
名称-值对不能指定函数句柄。
需要沿第一个维度计算中值或四分位数范围的标准化方法只支持高列向量数据。金宝app这包括以下方法规范化(___,'zscore','鲁棒')
,正常化(___,“规模”,“疯狂”)
,正常化(___,'scale','iqr')
,正常化(___,'中心','中位')
,及正常化(___,'medianiqr')
.
有关更多信息,请参见高大的数组.
使用说明和限制:
当方法类型为'中央'
和“规模”
桌子和桌子都有吗“DataVariables”
如果未提供,则方法类型必须具有相同顺序的表变量名。
该功能完全支持GPU阵列。金宝app有关更多信息,请参见在GPU上运行MATLAB函数(并行计算工具箱).
使用说明和限制:
的语法正常化(___,'medianiqr')
不支持。金宝app
的语法正常化(___,'scale','iqr')
不支持。金宝app
有关更多信息,请参见使用分布式阵列运行MATLAB函数(并行计算工具箱).
你点击一个链接对应于这个MATLAB命令:
在MATLAB命令窗口中输入它来运行命令。Web浏览器不支持MATLAB命令。金宝app
您还可以从以下列表中选择网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。