이번역페이지는최신내용을담고있지않습니다。최신내용을문으로보려면여기를클릭하십시오。
正常化
데이터정규화
구문
설명
은지정된방법에대한정규화유형을지정합니다。예를들어,N
=正常化(___,方法
,methodtype
)正常化(“规范”,正无穷)
는무한대노름을사용하여一个
에있는데이터를정규화합니다。
은N
=正常化(___“中心”,centertype
“规模”,scaletype
)“中心”
와“规模”
방법을동시에사용합니다。이들방법만함께사용할수있습니다。centertype
또는scaletype
을지정하지않으면해당방법에대한디폴트방법유형을사용하여정규화합니다(평균0이되도록중심화하고표준편차로스케일링함)。
이구문을정규화유형과함께사용하여두방법을모두수행합니다。예를 들면N = normalize(A,'center','median','scale','mad')
와같습니다。먼저계산한정규화에서의정규화값C
와年代
를이구문을사용하여지정해줄수도있습니다。예를들어,[N1,C,S] =正态化(A1)
을사용하여데이터세트하나를정규화하고파라미터를저장합니다。그런다음,N2 = normalize(A2,'center',C,'scale',S)
를사용하여다른데이터세트에서이러한파라미터를재사용합니다。
예제
벡터및행렬데이터
Z점수를계산하여벡터와행렬에있는데이터를정규화합니다。
벡터v
를만들고데이터가평균0과준편차1을갖도록정규화하여z점수를계산합니다。
V = 1:5;N =正常化(v)
N =1×5-1.2649 -0.6325 0 0.6325
행렬B
를만들고각열에대해z점수를계산합니다。그런다음각행을정규화합니다。
B =魔术(3)
B =3×38 1 6 3 5 7 4 9 2
N1 =正常化(B)
N1 =3×31.1339 -1.0000 0.3780 -0.7559 0 0.7559 -0.3780 1.0000 -1.1339
N2 =正态化(B,2)
N2 =3×30.8321 -1.1094 0.2774 -1.0000 0 1.0000 -0.2774 1.1094 -0.8321
데이터스케일링하기
벡터一个
를@ @준편차로스케일링합니다。
A = 1:5;n =正常化(A,“规模”)
Ns =1×50.6325 1.2649 1.8974 2.5298 3.1623
범위가구간[0,1]내에오도록一个
를스케일링합니다。
Nr =正态化(A,“范围”)
Nr =1×50 0.2500 0.5000 0.7500 1.0000
방법유형지정하기
벡터一个
를만들고1-노름으로정규화합니다。
A = 1:5;Np =正常化(A,“规范”, 1)
Np =1×50.0667 0.1333 0.2000 0.2667 0.3333
一个
가평균0을갖도록데이터를중심화합니다。
Nc =正态化(A,“中心”,“的意思是”)
数控=1×5-2 -1 0 1 2
테이블변수
다섯사람의키정보를포함하는테이블을만듭니다。
姓氏= {“桑切斯”;“约翰逊”;“李”;“Diaz”;“棕色”};身高= [71;69;64;67;64];T = table(LastName,Height)
T =5×2表姓氏身高_________ ______ '桑切斯' 71 '约翰逊' 69 '李' 64 '迪亚兹' 67 '布朗' 64
가장큰키를사용해키데이터를정규화합니다。
N =归一化(T,“规范”正,“DataVariables”,“高度”)
N =5×2表姓氏身高_________ _______“桑切斯”1“约翰逊”0.97183“李”0.90141“迪亚兹”0.94366“布朗”0.90141
동일한파라미터가있는여러데이터세트정규화하기
데이터세트를정규화하고계산된파라미터값을반환하고파라미터를재사용하여동일한정규화를다른데이터세트에적용합니다。
두개의변수温度
와风速
가있는타임테이블을만듭니다。그런다음동일한변수이지만일년후의샘플을사용하는두번째타임테이블을만듭니다。
rng默认的Time1 = (datetime(2019,1,1):days(1):datetime(2019,1,10))';温度= randi([10 40],10,1);风速= randi([0 20],10,1);T1 =时间表(温度,风速,“RowTimes”Time1)
T1 =10×2时间表时间温度风速___________ ___________ _________ 01-Jan-2019 35 3 02-Jan-2019 38 20 03-Jan-2019 13 20 04-Jan-2019 38 10 05-Jan-2019 29 16 06-Jan-2019 13 2 07-Jan-2019 18 8 08-Jan-2019 26 19 09-Jan-2019 39 16 10- jan -2019 39 20
Time2 = (datetime(2020,1,1):days(1):datetime(2020,1,10))';温度= randi([10 40],10,1);风速= randi([0 20],10,1);T2 =时间表(温度,风速,“RowTimes”Time2)
T2 =10×2时间表时间温度风速___________ ___________ _________ 01-Jan-2020 30 14 02-Jan-2020 11 0 03-Jan-2020 36 5 04-Jan-2020 38 0 05-Jan-2020 31 2 06-Jan-2020 33 17 07-Jan-2020 33 14 08-Jan-2020 22 6 09-Jan-2020 30 19 10-Jan-2020 15 0
첫번째타임테이블을정규화합니다。세개의출력값을지정합니다。지정하는값은정규화된테이블및정규화를수행하기위해함수에서사용하는정규화파라미터값C
와年代
입니다。
[T1_norm,C,S] = normalize(T1)
T1_norm =10×2时间表时间温度风速___________ ___________ _________ 01-Jan-2019 0.57687 -1.4636 02-Jan-2019 0.856 0.92885 03-Jan-2019 -1.4701 0.92885 04-Jan-2019 - 0.856 -0.4785 05-Jan-2019 0.018609 0.36591 06-Jan-2019 -1.4701 -1.6044 07-Jan-2019 -1.0049 - 0.775997 08-Jan-2019 -0.26052 0.8812 09-Jan-2019 0.94905 0.36591 10-Jan-2019 0.94905 0.92885
C =1×2表温度风速 ___________ _________ 28.8 - 13.4
S =1×2表温度风速 ___________ _________ 10.748 - 7.1056
이제첫번째정규화의파라미터값을사용하여두번째타임테이블T2
를정규화합니다。이 기법은T2
의데이터가T1
과동일한방법으로정규화되도록합니다。
T2_norm = normalize(T2,“中心”C“规模”,年代)
T2_norm =10×2时间表时间温度风速___________ ___________ _________ 01-Jan-2020 0.11165 0.084441 02-Jan-2020 -1.6562 -1.8858 03-Jan-2020 0.66992 -1.1822 04-Jan-2020 0.856 -1.8858 05-Jan-2020 0.2047 -1.6044 06-Jan-2020 0.39078 0.50665 07-Jan-2020 0.39078 0.084441 08-Jan-2020 -0.6327 -1.0414 09-Jan-2020 0.11165 0.78812 10-Jan-2020 -1.284 -1.8858
기본적으로正常化
는C
와年代
에도있는변수T2
에대해연산을수행합니다。T2
에있는변수의일부를정규화하려면“DataVariables”
이름-값通讯录수로연산을수행할변수를지정하십시오。사용자가지정한변수의일부가C
와年代
에있어야합니다。
연산을수행할데이터변수로风速
를지정합니다。正常化
는이변수에대해연산을수행하고변경하지않은상태로温度
를반환합니다。
T2_partial = normalize(T2,“中心”C“规模”年代,“DataVariables”,“风速”)
T2_partial =10×2时间表Time Temperature WindSpeed ___________ ___________ _________ 01-Jan-2020 30 0.084441 02-Jan-2020 11 -1.8858 03-Jan-2020 36 -1.1822 04-Jan-2020 38 -1.8858 05-Jan-2020 31 -1.6044 06-Jan-2020 33 0.50665 07-Jan-2020 33 0.084441 08-Jan-2020 22 -1.0414 09-Jan-2020 30 0.78812 10-Jan-2020 15 -1.8858
입력marketing수
一个
- - - - - -입력데이터
스칼라|벡터|행렬|다차원배열|테이블|타임테이블
입력데이터로,스칼라,벡터,행렬,다차원배열,表형또는时间表형으로지정됩니다。
一个
가숫자형배열이고单
형경우출력값도单
형입니다。그렇지않은경우출력값은双
형입니다。
正常化
는一个
에 있는南
값을무시합니다。
데이터형:双
|单
|表格
|时间表
복소수지원여부:예
昏暗的
- - - - - -차원
양의정수스칼라
연산을수행할차원으로,양의정수스칼라로지정됩니다。
데이터형:双
|单
|int8
|int16
|int32
|int64
|uint8
|uint16
|uint32
|uint64
methodtype
- - - - - -방법 유형
배열|테이블|소를2개가진행벡터|유형 이름
방법유형으로,지정된방법에따라배열,테이블,요소를2개가진행벡터또는유형이름으로지정됩니다。
방법 |
방법유형옵션 |
설명 |
---|---|---|
|
|
평균0과준편차1을갖도록정규화 |
|
중앙값0과중앙값절대편차1을갖도록정규화 |
|
|
양의숫자형스칼라(디폴트값은2) |
p-노름 |
|
무한대노름 | |
|
|
준편차로스케일링 |
|
중앙값절대편차로스케일링합니다。 | |
|
데이터의첫번째소로스케일링합니다。 | |
|
사분위범위로데이터를스케일링합니다。 | |
숫자형배열 |
숫자형값으로데이터를스케일링합니다..배열은입력값一个 와호환되는크기여야합니다。 |
|
테이블 |
테이블의변수를사용하여데이터를스케일링합니다。입력데이터一个 의각테이블변수는스케일링테이블에있는유사한이름의변수의값을사용하여스케일링됩니다。 |
|
|
소를2개가진행벡터(디폴트값은[0 1]) |
데이터범위를[b] 형식의구간으로다시스케일링합니다。여기서A < b 입니다。 |
|
|
평균0을갖도록중심화합니다。 |
|
중앙값0을갖도록중심화합니다。 | |
숫자형배열 |
숫자형값만큼중심을이동합니다。배열은입력값一个 와호환되는크기여야합니다。 |
|
테이블 |
테이블의변수를사용하여중심을이동합니다。입력데이터一个 의각테이블변수는중심화테이블에있는유사한이름의변수의값을사용하여중심화됩니다。 |
centertype
,scaletype
- - - - - -정규화방법유형
배열|테이블|유형 이름
정규화방법유형으로,“中心”
또는“规模”
방법에대해각각유효한methodtype
옵션으로지정됩니다。각방법에대해사용가능한옵션목록은methodtype
수설명을참조하십시오。
예:N = normalize(A,'center',C,'scale',S)
datavars
- - - - - -연산을수행할테이블변수
스칼라|벡터|셀형 배열|함수 핸들|테이블vartype
첨자
연산을수행할테이블변수로,다음@에있는옵션중하나로지정됩니다。datavars
는정규화할입력테이블의변수를나타냅니다。테이블에서datavars
로지정되지않은다른변수는연산이수행되지않은채출력값으로전달됩니다。
옵션 | 설명 | 예제 |
---|---|---|
변수 이름 | 단일테이블변수이름을지정하는문자형벡터또는字符串형스칼라 |
|
변수이름으로구성된벡터 | 각소가테이블변수이름,문자형벡터또는string형배열로구성된셀형배열 |
|
스칼라또는변수덱스로구성된벡터 | 스칼라또는테이블변수덱스로구성된벡터 |
|
논리형벡터 | 각각의소가테이블변수에해당하는논리형벡터。여기서 |
|
함수 핸들 | 테이블변수를입력값으로받고논리형스칼라를반환하는함수핸들 |
|
vartype 첨자 |
|
|
예:normalize(T,'norm','DataVariables',["Var1" "Var2" "Var4"])
출력marketing수
N
-정규화된값
배열|테이블|타임테이블
정규화된값으로,배열,테이블또는타임테이블로반환됩니다。N
은입력데이터一个
와크기가같습니다。
일반적으로正常化
는다음사례를제외하고입력값으로제공된테이블및타임테이블에있는모든변수에대해연산을수행합니다。
“DataVariables”
를지정하면正常化
는지정된변수에만연산을수행하고데이터의다른변수는수정되지않은상태로N
에반환됩니다。먼저계산된파라미터
C
와年代
를사용하여테이블또는타임테이블T
를정규화하기위해구문正常化(T,“中心”,C,“规模”,年代)
를사용하면正常化
는자동으로C
와年代
의변수이름을사용하여연산을수행할T
의데이터변수를결정합니다。T
의다른변수는수정되지않은상태로N
에반환됩니다。
C
-중심화값
배열|테이블
중심화값으로,배열또는테이블로반환됩니다。
一个
가배열일때正常化
는N = (a - c) ./ s
를충족하는배열로C
와年代
를반환합니다。C
의각값은지정된차원을따라정규화를수행하는데사용되는중심화값입니다。예를들어,一个
가10×10데이터행렬이고正常化
가첫번째차원을따라연산을수행한다면C
는一个
의각열에대한중심화값을포함하는1×10벡터입니다。
一个
가테이블또는타임테이블경우正常化
는N.Var = (A.Var - C.Var) ./ S.Var
로정규화한테이블변수들각각의중심과스케일을포함하는테이블로C
와年代
를반환합니다。C
와年代
의테이블변수이름은대응하는입력값의테이블변수와일치합니다。C
의각변수는一个
의유사한이름의변수를정규화하는데사용된중심화값을포함합니다。
年代
-스케일링값
배열|테이블
스케일링값으로,배열또는테이블로반환됩니다。
一个
가배열일때正常化
는N = (a - c) ./ s
를충족하는배열로C
와年代
를반환합니다。年代
의각값은지정된차원을따라정규화를수행하는데사용되는스케일링값입니다。예를들어,一个
가10×10데이터행렬이고正常化
가첫번째차원을따라연산을수행한다면年代
는一个
의각열에대한스케일링값을포함하는1×10벡터입니다。
一个
가테이블또는타임테이블경우正常化
는N.Var = (A.Var - C.Var) ./ S.Var
로정규화한테이블변수들각각의중심과스케일을포함하는테이블로C
와年代
를반환합니다。C
와年代
의테이블변수이름은대응하는입력값의테이블변수와일치합니다。年代
의각변수는一个
의유사한이름의변수를정규화하는데사용된스케일링값을포함합니다。
세부 정보
Z점수
평균이μ이고준편차가σ확률변수X에대해,값X의z점수는 입니다。평균이 이고준편차가S샘플데이터에대해,데이터점x의z점수는 입니다。
Z점수는준편차를사용하여평균에서데이터점까지의거리를측정합니다。표준화된데이터세트는평균과0표준편차1을가지며,원본데이터세트의형태속성이그대로유지됩니다(동일한왜도와첨도)。
p -노름
N개소를가진벡터v의p-노름에대한일반정의는다음과같습니다。
여기서p는임의의양의실수,正
또는负
입니다。일반적으로사용되는몇가지p값은다음과같습니다。
P가1이면결과로생성되는1-노름은벡터소의절댓값의합입니다。
2 p가이면결과로생성되는2 -노름은벡터크기또는벡터의유클리드길이를제공합니다。
p가
正
이면 입니다。
다시스케일링하기
다시스케일링하기는수직선을따라점을늘리거나압축하여데이터세트의최솟값과최댓값사이의거리를변경합니다。데이터의z-점수는유지되므로분포의모양이동일한형태로남게됩니다。
임의의구간[b]
로 데이터X
를다시스케일링하는수식은다음과같습니다。
正常化
함수와重新调节
함수모두임의의구간으로데이터를다시스케일링할수있지만,重新调节
은입력데이터를지정된최솟값과최댓값에맞게자를수도있습니다。
사분위범위
데이터세트의사분위범위(差)는값들을정렬했을때그값들의중간의50%범위를나타냅니다。데이터의중앙값이Q2이고데이터의아래쪽절반의중앙값이Q1이며데이터의위쪽절반의중앙값이Q3인경우 이됩니다。
IQR은데이터에서가장큰25%와가장작은25%의값을제외하기때문에데이터에이상값(매우크거나매우작은값)이포함된경우일반적으로IQR이데이터의전체범위를살펴보는것보다선호됩니다。
중앙값절대편차
데이터세트의중앙값절대편차(疯狂)는데이터의중앙값 에서의절대편차의중앙값 입니다。따라서mad는중앙값을기준으로한데이터의가변성을설명합니다。
표준편차는평균으로부터의편차를제곱하여이상값(매우크거나매우작은값)에과하게큰영향을부여하기때문에,데이터에이상값이포함된경우일반적으로가疯狂데이터의표준편차를사용하는것보다선호됩니다。역으로,적은수의이상값의편차는mad의값에향을주지않습니다。
확장 기능
高형배열
메모리에담을수없을정도로많은행을가진배열을계산할수있습니다。
사용법관련참고및제한사항:
출력값
C
와年代
는지원되지않습니다。“中心”
와“规模”
방법을동시에지정할수없습니다。“中心”
에지원되는방법유형은“的意思是”
,“中值”
또는숫자형스칼라입니다。“规模”
에지원되는방법유형은“性病”
,“疯了”
,“第一”
또는숫자형스칼라입니다。“DataVariables”
이름-값쌍에는함수핸들을지정할수없습니다。첫번째차원을따라중앙값또는사분위범위의계산이필요한정규화방법은高형열벡터데이터만지원합니다。여기에는
正常化(___,“zscore”,“健壮”)
,正常化(___,“规模”,“疯狂”)
,正常化(___,“规模”,“差”)
,正常化(___,“中心”、“中值”)
및正常化(___ medianiqr)
방법이포함됩니다。
자세한내용은高형배열항목을참조하십시오。
C/ c++코드생성
MATLAB®Coder™를사용하여C코드나c++코드를생성할수있습니다。
사용법관련참고및제한사항:
“中心”
와“规模”
에대한방법유형이모두테이블이고“DataVariables”
가제공되지않으면방법유형은동일한순서로테이블변수이름을가져야합니다。
스레드기반환경
MATLAB®의backgroundPool
을사용해백그라운드에서코드를실행하거나并行计算工具箱™의ThreadPool
을사용해코드실행속도를높일수있습니다。
이함수는스레드기반환경을완전히지원합니다。자세한내용은在线程环境中运行MATLAB函数항목을참조하십시오。
Gpu배열
并行计算工具箱™를사용해GPU(그래픽스처리장치)에서실행하여코드실행속도를높일수있습니다。
이함수는gpu배열을완전히지원합니다。자세한내용은Gpu에서matlab함수실행하기(并行计算工具箱)항목을참조하십시오。
분산 배열
并行计算工具箱™를사용하여대규모배열을클러스터의결합된메모리에걸쳐분할할수있습니다。
사용법관련참고및제한사항:
구문
正常化(___ medianiqr)
은지원되지않습니다。구문
正常化(___,“规模”,“差”)
은지원되지않습니다。
자세한내용은분산배열을사용하여matlab함수실행(并行计算工具箱)항목을참조하십시오。
버전 내역
Matlab명령
다음matlab명령에해당하는링크를클릭했습니다。
명령을실행하려면matlab명령창에입력하십시오。웹브라우저는matlab명령을지원하지않습니다。
您也可以从以下列表中选择一个网站:
如何获得最佳的网站性能
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。