主要内容

이번역페이지는최신내용을담고있지않습니다。최신내용을문으로보려면여기를클릭하십시오。

正常化

데이터정규화

설명

예제

N=正常化(一个一个에있는데이터의벡터별Z점수를반환합니다。이때z점수의중심은0이고준편차는1입니다。

  • 一个가벡터이면正常化는전체벡터에대해연산을수행합니다。

  • 一个가행렬,테이블또는타임테이블이면正常化는데이터의각열에대해개별적으로연산을수행합니다。

  • 一个가다차원배열경우正常化는크기가1이아닌첫번째배열차원을따라연산합니다。

예제

N=正常化(一个昏暗的은 차원昏暗的을따라z점수를반환합니다。예를들어,正常化(2)는각행을정규화합니다。

예제

N=正常化(___方法는위에열거된구문중하나를사용하여정규화방법을지정합니다。예를들어,正常化(A,“规范”)一个에있는데이터를유클리드노름(2-노름)으로정규화합니다。

예제

N=正常化(___方法methodtype은지정된방법에대한정규화유형을지정합니다。예를들어,正常化(“规范”,正无穷)는무한대노름을사용하여一个에있는데이터를정규화합니다。

N=正常化(___“中心”,centertype“规模”,scaletype“中心”“规模”방법을동시에사용합니다。이들방법만함께사용할수있습니다。centertype또는scaletype을지정하지않으면해당방법에대한디폴트방법유형을사용하여정규화합니다(평균0이되도록중심화하고표준편차로스케일링함)。

이구문을정규화유형과함께사용하여두방법을모두수행합니다。예를 들면N = normalize(A,'center','median','scale','mad')와같습니다。먼저계산한정규화에서의정규화값C年代를이구문을사용하여지정해줄수도있습니다。예를들어,[N1,C,S] =正态化(A1)을사용하여데이터세트하나를정규화하고파라미터를저장합니다。그런다음,N2 = normalize(A2,'center',C,'scale',S)를사용하여다른데이터세트에서이러한파라미터를재사용합니다。

예제

N=正常化(___“DataVariables”,datavars는입력데이터가테이블또는타임테이블인경우연산을수행할변수를선택적으로지정합니다。위에열거된구문과함께이옵션을사용할수있습니다。

NC年代=正常化(___는정규화를수행하는데사용된정규화값C年代를추가로반환합니다。사용자는C年代의값을명령N = normalize(A2,'center',C,'scale',S)에사용하여다른입력데이터를정규화할수있습니다。

예제

모두 축소

Z점수를계산하여벡터와행렬에있는데이터를정규화합니다。

벡터v를만들고데이터가평균0과준편차1을갖도록정규화하여z점수를계산합니다。

V = 1:5;N =正常化(v)
N =1×5-1.2649 -0.6325 0 0.6325

행렬B를만들고각열에대해z점수를계산합니다。그런다음각행을정규화합니다。

B =魔术(3)
B =3×38 1 6 3 5 7 4 9 2
N1 =正常化(B)
N1 =3×31.1339 -1.0000 0.3780 -0.7559 0 0.7559 -0.3780 1.0000 -1.1339
N2 =正态化(B,2)
N2 =3×30.8321 -1.1094 0.2774 -1.0000 0 1.0000 -0.2774 1.1094 -0.8321

벡터一个를@ @준편차로스케일링합니다。

A = 1:5;n =正常化(A,“规模”
Ns =1×50.6325 1.2649 1.8974 2.5298 3.1623

범위가구간[0,1]내에오도록一个를스케일링합니다。

Nr =正态化(A,“范围”
Nr =1×50 0.2500 0.5000 0.7500 1.0000

벡터一个를만들고1-노름으로정규화합니다。

A = 1:5;Np =正常化(A,“规范”, 1)
Np =1×50.0667 0.1333 0.2000 0.2667 0.3333

一个가평균0을갖도록데이터를중심화합니다。

Nc =正态化(A,“中心”“的意思是”
数控=1×5-2 -1 0 1 2

다섯사람의키정보를포함하는테이블을만듭니다。

姓氏= {“桑切斯”“约翰逊”“李”“Diaz”“棕色”};身高= [71;69;64;67;64];T = table(LastName,Height)
T =5×2表姓氏身高_________ ______ '桑切斯' 71 '约翰逊' 69 '李' 64 '迪亚兹' 67 '布朗' 64

가장큰키를사용해키데이터를정규화합니다。

N =归一化(T,“规范”正,“DataVariables”“高度”
N =5×2表姓氏身高_________ _______“桑切斯”1“约翰逊”0.97183“李”0.90141“迪亚兹”0.94366“布朗”0.90141

데이터세트를정규화하고계산된파라미터값을반환하고파라미터를재사용하여동일한정규화를다른데이터세트에적용합니다。

두개의변수温度风速가있는타임테이블을만듭니다。그런다음동일한변수이지만일년후의샘플을사용하는두번째타임테이블을만듭니다。

rng默认的Time1 = (datetime(2019,1,1):days(1):datetime(2019,1,10))';温度= randi([10 40],10,1);风速= randi([0 20],10,1);T1 =时间表(温度,风速,“RowTimes”Time1)
T1 =10×2时间表时间温度风速___________ ___________ _________ 01-Jan-2019 35 3 02-Jan-2019 38 20 03-Jan-2019 13 20 04-Jan-2019 38 10 05-Jan-2019 29 16 06-Jan-2019 13 2 07-Jan-2019 18 8 08-Jan-2019 26 19 09-Jan-2019 39 16 10- jan -2019 39 20
Time2 = (datetime(2020,1,1):days(1):datetime(2020,1,10))';温度= randi([10 40],10,1);风速= randi([0 20],10,1);T2 =时间表(温度,风速,“RowTimes”Time2)
T2 =10×2时间表时间温度风速___________ ___________ _________ 01-Jan-2020 30 14 02-Jan-2020 11 0 03-Jan-2020 36 5 04-Jan-2020 38 0 05-Jan-2020 31 2 06-Jan-2020 33 17 07-Jan-2020 33 14 08-Jan-2020 22 6 09-Jan-2020 30 19 10-Jan-2020 15 0

첫번째타임테이블을정규화합니다。세개의출력값을지정합니다。지정하는값은정규화된테이블및정규화를수행하기위해함수에서사용하는정규화파라미터값C年代입니다。

[T1_norm,C,S] = normalize(T1)
T1_norm =10×2时间表时间温度风速___________ ___________ _________ 01-Jan-2019 0.57687 -1.4636 02-Jan-2019 0.856 0.92885 03-Jan-2019 -1.4701 0.92885 04-Jan-2019 - 0.856 -0.4785 05-Jan-2019 0.018609 0.36591 06-Jan-2019 -1.4701 -1.6044 07-Jan-2019 -1.0049 - 0.775997 08-Jan-2019 -0.26052 0.8812 09-Jan-2019 0.94905 0.36591 10-Jan-2019 0.94905 0.92885
C =1×2表温度风速  ___________ _________ 28.8 - 13.4
S =1×2表温度风速  ___________ _________ 10.748 - 7.1056

이제첫번째정규화의파라미터값을사용하여두번째타임테이블T2를정규화합니다。이 기법은T2의데이터가T1과동일한방법으로정규화되도록합니다。

T2_norm = normalize(T2,“中心”C“规模”,年代)
T2_norm =10×2时间表时间温度风速___________ ___________ _________ 01-Jan-2020 0.11165 0.084441 02-Jan-2020 -1.6562 -1.8858 03-Jan-2020 0.66992 -1.1822 04-Jan-2020 0.856 -1.8858 05-Jan-2020 0.2047 -1.6044 06-Jan-2020 0.39078 0.50665 07-Jan-2020 0.39078 0.084441 08-Jan-2020 -0.6327 -1.0414 09-Jan-2020 0.11165 0.78812 10-Jan-2020 -1.284 -1.8858

기본적으로正常化C年代에도있는변수T2에대해연산을수행합니다。T2에있는변수의일부를정규화하려면“DataVariables”이름-값通讯录수로연산을수행할변수를지정하십시오。사용자가지정한변수의일부가C年代에있어야합니다。

연산을수행할데이터변수로风速를지정합니다。正常化는이변수에대해연산을수행하고변경하지않은상태로温度를반환합니다。

T2_partial = normalize(T2,“中心”C“规模”年代,“DataVariables”“风速”
T2_partial =10×2时间表Time Temperature WindSpeed ___________ ___________ _________ 01-Jan-2020 30 0.084441 02-Jan-2020 11 -1.8858 03-Jan-2020 36 -1.1822 04-Jan-2020 38 -1.8858 05-Jan-2020 31 -1.6044 06-Jan-2020 33 0.50665 07-Jan-2020 33 0.084441 08-Jan-2020 22 -1.0414 09-Jan-2020 30 0.78812 10-Jan-2020 15 -1.8858

입력marketing수

모두 축소

입력데이터로,스칼라,벡터,행렬,다차원배열,表형또는时间表형으로지정됩니다。

一个가숫자형배열이고형경우출력값도형입니다。그렇지않은경우출력값은형입니다。

正常化一个에 있는값을무시합니다。

데이터형:||表格|时间表
복소수지원여부:

연산을수행할차원으로,양의정수스칼라로지정됩니다。

데이터형:||int8|int16|int32|int64|uint8|uint16|uint32|uint64

정규화방법으로,다음옵션중하나로지정됩니다。

방법

설명

“zscore”

평균이0이고준편차가1Z점수

“规范”

2-노름

“规模”

준편차로스케일링

“范围”

데이터범위를[0,1]로다시스케일링

“中心”

데이터가평균0을갖도록중심화

“medianiqr”

데이터가중앙값0과사분위범위1을갖도록정규화

데이터를정규화하기위해함수에서사용할파라미터를반환하려면출력수C年代를지정하십시오。

방법유형으로,지정된방법에따라배열,테이블,요소를2개가진행벡터또는유형이름으로지정됩니다。

방법

방법유형옵션

설명

“zscore”

“性病”(디폴트값)

평균0과준편차1을갖도록정규화

“稳健”

중앙값0과중앙값절대편차1을갖도록정규화

“规范”

양의숫자형스칼라(디폴트값은2)

p-노름

무한대노름

“规模”

“性病”(디폴트값)

준편차로스케일링

“疯了”

중앙값절대편차로스케일링합니다。

“第一”

데이터의첫번째소로스케일링합니다。

“差”

사분위범위로데이터를스케일링합니다。

숫자형배열

숫자형값으로데이터를스케일링합니다..배열은입력값一个호환되는크기여야합니다。

테이블

테이블의변수를사용하여데이터를스케일링합니다。입력데이터一个의각테이블변수는스케일링테이블에있는유사한이름의변수의값을사용하여스케일링됩니다。

“范围”

소를2개가진행벡터(디폴트값은[0 1])

데이터범위를[b]형식의구간으로다시스케일링합니다。여기서A < b입니다。

“中心”

“的意思是”(디폴트값)

평균0을갖도록중심화합니다。

“中值”

중앙값0을갖도록중심화합니다。

숫자형배열

숫자형값만큼중심을이동합니다。배열은입력값一个호환되는크기여야합니다。

테이블

테이블의변수를사용하여중심을이동합니다。입력데이터一个의각테이블변수는중심화테이블에있는유사한이름의변수의값을사용하여중심화됩니다。

데이터를정규화하기위해함수에서사용할파라미터를반환하려면출력수C年代를지정하십시오。

정규화방법유형으로,“中心”또는“规模”방법에대해각각유효한methodtype옵션으로지정됩니다。각방법에대해사용가능한옵션목록은methodtype수설명을참조하십시오。

예:N = normalize(A,'center',C,'scale',S)

연산을수행할테이블변수로,다음@에있는옵션중하나로지정됩니다。datavars는정규화할입력테이블의변수를나타냅니다。테이블에서datavars로지정되지않은다른변수는연산이수행되지않은채출력값으로전달됩니다。

옵션 설명 예제
변수 이름

단일테이블변수이름을지정하는문자형벡터또는字符串형스칼라

“Var1”

“Var1”

변수이름으로구성된벡터

각소가테이블변수이름,문자형벡터또는string형배열로구성된셀형배열

{“Var1”“Var2”}

[" Var1”“Var2”)

스칼라또는변수덱스로구성된벡터

스칼라또는테이블변수덱스로구성된벡터

1

[1 3 5]

논리형벡터

각각의소가테이블변수에해당하는논리형벡터。여기서真正的는해당하는변수를포함하고는해당하는변수를제외합니다。

[真真假假]

함수 핸들

테이블변수를입력값으로받고논리형스칼라를반환하는함수핸들

@isnumeric

vartype첨자

vartype함수로생성된테이블첨자

vartype(数字)

예:normalize(T,'norm','DataVariables',["Var1" "Var2" "Var4"])

출력marketing수

모두 축소

정규화된값으로,배열,테이블또는타임테이블로반환됩니다。N은입력데이터一个와크기가같습니다。

일반적으로正常化는다음사례를제외하고입력값으로제공된테이블및타임테이블에있는모든변수에대해연산을수행합니다。

  • “DataVariables”를지정하면正常化는지정된변수에만연산을수행하고데이터의다른변수는수정되지않은상태로N에반환됩니다。

  • 먼저계산된파라미터C年代를사용하여테이블또는타임테이블T를정규화하기위해구문正常化(T,“中心”,C,“规模”,年代)를사용하면正常化는자동으로C年代의변수이름을사용하여연산을수행할T의데이터변수를결정합니다。T의다른변수는수정되지않은상태로N에반환됩니다。

중심화값으로,배열또는테이블로반환됩니다。

一个가배열일때正常化N = (a - c) ./ s를충족하는배열로C年代를반환합니다。C의각값은지정된차원을따라정규화를수행하는데사용되는중심화값입니다。예를들어,一个가10×10데이터행렬이고正常化가첫번째차원을따라연산을수행한다면C一个의각열에대한중심화값을포함하는1×10벡터입니다。

一个가테이블또는타임테이블경우正常化N.Var = (A.Var - C.Var) ./ S.Var로정규화한테이블변수들각각의중심과스케일을포함하는테이블로C年代를반환합니다。C年代의테이블변수이름은대응하는입력값의테이블변수와일치합니다。C의각변수는一个의유사한이름의변수를정규화하는데사용된중심화값을포함합니다。

스케일링값으로,배열또는테이블로반환됩니다。

一个가배열일때正常化N = (a - c) ./ s를충족하는배열로C年代를반환합니다。年代의각값은지정된차원을따라정규화를수행하는데사용되는스케일링값입니다。예를들어,一个가10×10데이터행렬이고正常化가첫번째차원을따라연산을수행한다면年代一个의각열에대한스케일링값을포함하는1×10벡터입니다。

一个가테이블또는타임테이블경우正常化N.Var = (A.Var - C.Var) ./ S.Var로정규화한테이블변수들각각의중심과스케일을포함하는테이블로C年代를반환합니다。C年代의테이블변수이름은대응하는입력값의테이블변수와일치합니다。年代의각변수는一个의유사한이름의변수를정규화하는데사용된스케일링값을포함합니다。

세부 정보

모두 축소

Z점수

평균이μ이고준편차가σ확률변수X에대해,값X의z점수는 z x μ σ 입니다。평균이 X ¯ 이고준편차가S샘플데이터에대해,데이터점x의z점수는 z x X ¯ 年代 입니다。

Z점수는준편차를사용하여평균에서데이터점까지의거리를측정합니다。표준화된데이터세트는평균과0표준편차1을가지며,원본데이터세트의형태속성이그대로유지됩니다(동일한왜도와첨도)。

p -노름

N개소를가진벡터v의p-노름에대한일반정의는다음과같습니다。

v p k 1 N | v k | p ] 1 / p

여기서p는임의의양의실수,또는입니다。일반적으로사용되는몇가지p값은다음과같습니다。

  • P가1이면결과로생성되는1-노름은벡터소의절댓값의합입니다。

  • 2 p가이면결과로생성되는2 -노름은벡터크기또는벡터의유클리드길이를제공합니다。

  • p가이면 v 马克斯 | v | 입니다。

다시스케일링하기

다시스케일링하기는수직선을따라점을늘리거나압축하여데이터세트의최솟값과최댓값사이의거리를변경합니다。데이터의z-점수는유지되므로분포의모양이동일한형태로남게됩니다。

임의의구간[b]로 데이터X를다시스케일링하는수식은다음과같습니다。

X r e 年代 c 一个 l e d 一个 + X 最小值 X 马克斯 X 最小值 X ] b 一个

正常化함수와重新调节함수모두임의의구간으로데이터를다시스케일링할수있지만,重新调节은입력데이터를지정된최솟값과최댓값에맞게자를수도있습니다。

사분위범위

데이터세트의사분위범위(差)는값들을정렬했을때그값들의중간의50%범위를나타냅니다。데이터의중앙값이Q2이고데이터의아래쪽절반의중앙값이Q1이며데이터의위쪽절반의중앙값이Q3인경우 Iqr = q3 - q1 이됩니다。

IQR은데이터에서가장큰25%와가장작은25%의값을제외하기때문에데이터에이상값(매우크거나매우작은값)이포함된경우일반적으로IQR이데이터의전체범위를살펴보는것보다선호됩니다。

중앙값절대편차

데이터세트의중앙값절대편차(疯狂)는데이터의중앙값 X ˜ 에서의절대편차의중앙값 疯了 中位数 | x X ˜ | 입니다。따라서mad는중앙값을기준으로한데이터의가변성을설명합니다。

표준편차는평균으로부터의편차를제곱하여이상값(매우크거나매우작은값)에과하게큰영향을부여하기때문에,데이터에이상값이포함된경우일반적으로가疯狂데이터의표준편차를사용하는것보다선호됩니다。역으로,적은수의이상값의편차는mad의값에향을주지않습니다。

확장 기능

버전 내역

R2018a에개발됨

참고 항목

||