autobinning
执行自动装箱的预测因子
描述
执行自动装箱中给出的预测因子sc
= autobinning (sc
,PredictorNames
)PredictorNames
。
自动装箱发现装箱地图或规定,本数值数据和组类别的分类数据。装箱规则存储在creditscorecard
对象。装箱规则应用到creditscorecard
对象数据,或者一个新的数据集,使用bindata
。
例子
使用默认执行自动装箱
创建一个creditscorecard
对象使用CreditCardData.mat
文件加载数据(使用数据集从Refaat 2011)。
负载CreditCardDatasc = creditscorecard(数据,“IDVar”,“CustID”);
使用默认选项执行自动装箱。默认情况下,autobinning
箱子所有预测和使用单调
算法。
sc = autobinning (sc);
使用bininfo
显示分箱数据预测CustAge
。
bi = bininfo (sc,“CustAge”)
bi =8×6表本好与坏的几率,悲哀InfoValue _________________出生______替{[无穷,33)}70年53 1.3208 -0.42622 0.019746{[33岁,37)}64年47 1.3617 -0.39568 0.015308{[37、40)}73年47 1.5532 -0.26411 0.0072573{'[40岁,46)}174 94 1.8511 -0.088658 0.001781{[46岁,48)}61年25 2.44 0.18758 0.0024372{[48,58)的}263 105 2.5048 0.21378 0.013476{的[58岁的Inf]} 98年26 3.7692 0.62245 0.0352{“总数”}803 397 0.095205 2.0227南
使用plotbins
显示柱状图和悲哀曲线预测CustAge
。
plotbins (sc,“CustAge”)
执行自动装箱与命名预测使用默认值
创建一个creditscorecard
对象使用CreditCardData.mat
文件加载数据
(使用一个数据集从Refaat 2011)。
负载CreditCardDatasc = creditscorecard(数据);
为预测执行自动装箱CustIncome
使用默认选项。默认情况下,autobinning
使用单调
算法。
sc = autobinning (sc,“CustIncome”);
使用bininfo
显示分箱数据。
bi = bininfo (sc,“CustIncome”)
bi =8×6表本好与坏的几率,悲哀InfoValue _________________出生_____ _____{[无穷,29000)的}53 58 0.91379 -0.79457 0.06364{[29000、33000)}74年49 1.5102 -0.29217 0.0091366{[33000、35000)的36}68 1.8889 -0.06843 0.00041042{[35000、40000)的}193 98 1.9694 -0.026696 0.00017359{[40000、42000)的}68 34 2 -0.011271 - 1.0819 e-05{[42000、47000)的}164 66 2.4848 0.20579 0.0078175{”(47000年,正)}183年56 3.2679 0.47972 0.041657{“总数”}803 397 0.12285 2.0227南
使用两个名称-值对参数进行自动装箱
创建一个creditscorecard
对象使用CreditCardData.mat
文件加载数据
(使用一个数据集从Refaat 2011)。
负载CreditCardDatasc = creditscorecard(数据);
为预测执行自动装箱CustIncome
使用单调
算法与容器的初始数量设置为20。这个例子中显式地设置的算法
和AlgorithmOptions
名称-值参数。
AlgoOptions = {“InitialNumBins”,20};sc = autobinning (sc,“CustIncome”,“算法”,“单调”,“AlgorithmOptions”,…AlgoOptions);
使用bininfo
显示分箱数据。这里,减少点,划垃圾箱,也显示出来。
(bi, cp) = bininfo (sc,“CustIncome”)
bi =11×6表本好的坏的几率悲哀InfoValue _________________出生_____ _____{[无穷,19000)的}2 3 0.66667 -1.1099 0.0056227{[19000、29000)的}51 55 0.92727 -0.77993 0.058516{[29000、31000)的}29日26日1.1154 -0.59522 0.017486{42(31000、34000)}80 1.9048 -0.060061 0.0003704{[34000、35000)的}33 17 1.9412 -0.041124 7.095 e-05{[35000、40000)的}193 98 1.9694 -0.026696 0.00017359{[40000、42000)的}68 34 2 -0.011271 - 1.0819 e-05{[42000、43000)的}39 16 2.4375 0.18655 0.001542{[43000、47000)}125年50 2.5 0.21187 0.0062972{”(47000年,正)}183年56 3.2679 0.47972 0.041657{“总数”}803 397 0.13175 2.0227南
cp =9×119000 29000 31000 34000 35000 40000 42000 43000 47000
使用多个名称-值对参数进行自动装箱
这个例子展示了如何使用autobinning
默认的单调
算法和AlgorithmOptions
名称-值对参数相关单调
算法。的AlgorithmOptions
为单调
算法有三个名称-值对参数:“InitialNumBins”
,“趋势”
,“SortCategories”
。“InitialNumBins”
和“趋势”
适用于数字预测和“趋势”
和“SortCategories”
适用于分类预测。
创建一个creditscorecard
对象使用CreditCardData.mat
文件加载数据(使用数据集从Refaat 2011)。
负载CreditCardDatasc = creditscorecard(数据,“IDVar”,“CustID”);
执行自动装箱的数值预测CustIncome
使用单调
算法有20箱。这个例子中显式地设置的算法
参数和AlgorithmOptions
名称-值参数“InitialNumBins”
和“趋势”
。
AlgoOptions = {“InitialNumBins”,20岁,“趋势”,“增加”};sc = autobinning (sc,“CustIncome”,“算法”,“单调”,…“AlgorithmOptions”,AlgoOptions);
使用bininfo
显示分箱数据。
bi = bininfo (sc,“CustIncome”)
bi =11×6表本好的坏的几率悲哀InfoValue _________________出生_____ _____{[无穷,19000)的}2 3 0.66667 -1.1099 0.0056227{[19000、29000)的}51 55 0.92727 -0.77993 0.058516{[29000、31000)的}29日26日1.1154 -0.59522 0.017486{42(31000、34000)}80 1.9048 -0.060061 0.0003704{[34000、35000)的}33 17 1.9412 -0.041124 7.095 e-05{[35000、40000)的}193 98 1.9694 -0.026696 0.00017359{[40000、42000)的}68 34 2 -0.011271 - 1.0819 e-05{[42000、43000)的}39 16 2.4375 0.18655 0.001542{[43000、47000)}125年50 2.5 0.21187 0.0062972{”(47000年,正)}183年56 3.2679 0.47972 0.041657{“总数”}803 397 0.13175 2.0227南
执行自动装箱多个预测
创建一个creditscorecard
对象使用CreditCardData.mat
文件加载数据
(使用一个数据集从Refaat 2011)。
负载CreditCardDatasc = creditscorecard(数据,“IDVar”,“CustID”);
为预测执行自动装箱CustIncome
和CustAge
使用默认单调
算法与AlgorithmOptions
为InitialNumBins
和趋势
。
AlgoOptions = {“InitialNumBins”,20岁,“趋势”,“增加”};sc = autobinning (sc, {“CustAge”,“CustIncome”},“算法”,“单调”,…“AlgorithmOptions”,AlgoOptions);
使用bininfo
显示分箱数据。
bi1 = bininfo (sc,“CustIncome”)
bi1 =11×6表本好的坏的几率悲哀InfoValue _________________出生_____ _____{[无穷,19000)的}2 3 0.66667 -1.1099 0.0056227{[19000、29000)的}51 55 0.92727 -0.77993 0.058516{[29000、31000)的}29日26日1.1154 -0.59522 0.017486{42(31000、34000)}80 1.9048 -0.060061 0.0003704{[34000、35000)的}33 17 1.9412 -0.041124 7.095 e-05{[35000、40000)的}193 98 1.9694 -0.026696 0.00017359{[40000、42000)的}68 34 2 -0.011271 - 1.0819 e-05{[42000、43000)的}39 16 2.4375 0.18655 0.001542{[43000、47000)}125年50 2.5 0.21187 0.0062972{”(47000年,正)}183年56 3.2679 0.47972 0.041657{“总数”}803 397 0.13175 2.0227南
bi2 = bininfo (sc,“CustAge”)
bi2 =8×6表本好的坏的几率悲哀InfoValue _________________出生______ _____ __________{[无穷,35岁)的}93 76 1.2237 -0.50255 0.038003{[35 40)的}114 71 1.6056 -0.2309 0.0085141{[40,42岁)的}52 30 1.7333 -0.15437 0.0016687{[42、44)的}58 32 1.8125 -0.10971 0.00091888{[44岁,47)}97年51 1.902 -0.061533 0.00047174{'[62)}333 130 2.5615 0.23619 0.020605{”(62年,正)}56 7 8 1.375 - 0.071647{“总数”}803 397 0.14183 2.0227南
执行自动装箱分类预测使用默认值
创建一个creditscorecard
对象使用CreditCardData.mat
文件加载数据
(使用一个数据集从Refaat 2011)。
负载CreditCardDatasc = creditscorecard(数据);
执行自动装箱分类预测的预测ResStatus
使用默认选项。默认情况下,autobinning
使用单调
算法。
sc = autobinning (sc,“ResStatus”);
使用bininfo
显示分箱数据。
bi = bininfo (sc,“ResStatus”)
bi =4×6表本好与坏的几率,悲哀出生______替InfoValue * * *{“租户”}307 167 1.8383 -0.095564 0.0036638{‘业主’}365 177 2.0621 0.019329 0.0001682{‘其他’}131年53 2.4717 0.20049 0.0059418{“总数”}803 397 0.0097738 2.0227南
执行自动装箱使用名称-值对分类预测参数
这个例子展示了如何修改数据(仅对于这个例子)来说明装箱分类预测使用单调
算法。
创建一个creditscorecard
对象使用CreditCardData.mat
文件加载数据
(使用一个数据集从Refaat 2011)。
负载CreditCardData
添加两个新类别和更新响应变量。
newdata =数据;rng (“默认”);%的再现性预测=“ResStatus”;状态= newdata.status;NumObs =长度(newdata(预测));Ind1 =兰迪(100年NumObs, 1);Ind2 =兰迪(100年NumObs, 1);newdata。(Ind1) =(预测)“转租人”;newdata。(Ind2) =(预测)“共同所有人”;状态(Ind1) =兰迪(2100 1)1;状态(Ind2) =兰迪(2100 1)1;newdata。状态=状态;
更新creditscorecard
对象使用newdata
和情节的箱子后面的比较。
scnew = creditscorecard (newdata,“IDVar”,“CustID”);(bi, cg) = bininfo (scnew预测)
bi =6×6表出生本好的坏的几率悲哀InfoValue * * *{‘业主’}______月______ ____ 308 154 2 0.092373 - 0.0032392{“租户”}264 136 1.9412 0.06252 0.0012907{‘其他’}109年49 2.2245 0.19875 0.0050386{转租人的}42 42 1 -0.60077 - 0.026813{“共同所有人”}52 44 1.1818 -0.43372 0.015802{“总数”}775 425 0.052183 1.8235南
cg =5×2表_____类别BinNumber * * *{‘业主’}1{“租户”}2{‘其他’}3{转租人的}4{“共同所有人”}5
plotbins (scnew预测)
执行自动分类装箱预测
使用默认单调
算法的AlgorithmOptions
名称-值对的理由“SortCategories”
和“趋势”
。
AlgoOptions = {“SortCategories”,“货物”,“趋势”,“增加”};scnew = autobinning (scnew预测,“算法”,“单调”,…“AlgorithmOptions”,AlgoOptions);
使用bininfo
显示本信息。第二个输出参数“重心”
抓住了本会员,这是本,每组属于数量。
(bi, cg) = bininfo (scnew预测)
bi =4×6表本好的坏的几率有祸了______月______ InfoValue __________出生_____ {Group1的}42 42 1 -0.60077 - 0.026813{的Group2} 52 44 1.1818 -0.43372 0.015802 {‘Group3} 681 339 2.0088 0.096788 0.0078459{“总数”}775 425 0.05046 1.8235南
cg =5×2表_____类别BinNumber * * *{转租人的}1{“共同所有人”}2{‘其他’}3{“租户”}{‘业主’}3
垃圾箱和比较直方图pre-binning策划的阴谋。
plotbins (scnew预测)
执行自动装箱的时候使用缺失的数据
创建一个creditscorecard
对象使用CreditCardData.mat
文件加载dataMissing
用缺失值。
负载CreditCardData.mat头(dataMissing, 5)
CustID CustAge TmAtAddress ResStatus EmpStatus CustIncome TmWBank OtherCC AMBalance UtilRate ____ ____地位………………_____ _____ _____ ________ ________ 53 62 <定义>未知50000 55是的1055.9 - 0.22 0 2 61 22业主雇佣52000 25是的1161.6 - 0.24 0 3 47 30租户使用37000 61没有877.23 - 0.29 0 4南75业主雇佣了53000 20是的157.37 - 0.08 0 5 68 56家老板雇用了53000名14是的561.84 - 0.11 0
流(“行数:% d \ n”、高度(dataMissing))
的行数:1200
流(“CustAge缺失值的数量:% d \ n '总和(ismissing (dataMissing.CustAge)))
CustAge缺失值的数量:30
流(“ResStatus缺失值的数量:% d \ n '总和(ismissing (dataMissing.ResStatus)))
ResStatus缺失值的数量:40
使用creditscorecard
名称-值的参数“BinMissingData”
设置为真正的
本失踪的数字和分类数据在一个单独的垃圾箱。
sc = creditscorecard (dataMissing,“BinMissingData”,真正的);disp (sc)
creditscorecard属性:GoodLabel: 0 ResponseVar:“地位”WeightsVar:“VarNames: {CustID的‘CustAge’‘TmAtAddress’‘ResStatus’‘EmpStatus’‘CustIncome’‘TmWBank’‘OtherCC’‘AMBalance UtilRate的“地位”}NumericPredictors: {CustID的‘CustAge’‘TmAtAddress’‘CustIncome’‘TmWBank’‘AMBalance’‘UtilRate} CategoricalPredictors: {“ResStatus”“EmpStatus”“OtherCC”} BinMissingData: 1 IDVar:“PredictorVars: {CustID的‘CustAge’‘TmAtAddress’‘ResStatus’‘EmpStatus’‘CustIncome’‘TmWBank’‘OtherCC’‘AMBalance’‘UtilRate}数据:[1200 x11表)
执行自动装箱使用合并
算法。
sc = autobinning (sc,“算法”,“合并”);
显示本信息为数值型数据“CustAge”
包括缺失的数据在一个单独的本标签<失踪>
这是最后一本。无论如何装箱算法中使用autobinning
,该算法作用于non-missing数据和本<失踪>
数值预测总是最后一本。
(bi, cp) = bininfo (sc,“CustAge”);disp (bi)
本好与坏的几率,悲哀InfoValue _________________出生________ _____{'[无穷,32)}56 39 1.4359 -0.34263 0.0097643{'[32、33)}13 13 1 -0.70442 0.011663{'[33、34)}9 11 0.81818 -0.90509 0.014934{'[65)}677 317 2.1356 0.054351 0.002424{”(65年,正)}29日6 4.8333 0.87112 0.018295{' <失踪>}19 11 1.7273 -0.15787 0.00063885{“总数”}803 397 0.057718 2.0227南
plotbins (sc,“CustAge”)
显示本信息为分类数据“ResStatus”
包括缺失的数据在一个单独的本标签<失踪>
这是最后一本。无论如何装箱算法中使用autobinning
,该算法作用于non-missing数据和本<失踪>
定值预测总是最后一本。
(bi, cg) = bininfo (sc,“ResStatus”);disp (bi)
本好与坏的几率,悲哀InfoValue _________________出生______ _____ __________ {Group1的}648 332 1.9518 -0.035663 0.0010449{的Group2} 128年52 2.4615 0.19637 0.0055808{' <失踪>}27 13 2.0769 0.026469 2.3248 e-05{“总数”}803 397 0.0066489 2.0227南
plotbins (sc,“ResStatus”)
使用分割算法执行自动装箱
这个例子演示了使用“分裂”
算法与分类和数值预测。加载CreditCardData.mat
数据集和修改,它包含四类预测的ResStatus”
证明分割算法是如何工作的。
负载CreditCardData.matx = data.ResStatus;印第安纳州=找到(x = =“租户”);Nx =长度(印第安纳州);x(印第安纳州(1:地板(Nx / 3))) =“转租”;数据。ResStatus = x;
创建一个creditscorecard
和使用bininfo
来显示“统计数据”
。
sc = creditscorecard(数据,“IDVar”,“CustID”);[bi1, cg1] = bininfo (sc,“ResStatus”,“统计数据”,{“几率”,“悲哀”,“InfoValue”});disp (bi1)
本好与坏的几率,悲哀出生______ _____ __________ InfoValue * * *{‘业主’}365 177 2.0621 0.019329 0.0001682{“租户”}204 112 1.8214 -0.1048 0.0029415{‘其他’}131年53 2.4717 0.20049 0.0059418{“转租”}55 103 1.8727 -0.077023 0.00079103{“总数”}803 397 0.0098426 2.0227南
disp (cg1)
_____类别BinNumber * * *{‘业主’}1{“租户”}2{‘其他’}3{“转租”}4
使用分割算法分类预测
预分类应用于“ResStatus”
类别使用默认排序“几率”
并指定“分裂”
算法。
sc = autobinning (sc,“ResStatus”,“算法”,“分裂”,“AlgorithmOptions”,…{“测量”,“基尼”,“SortCategories”,“几率”,“宽容”,1 e4});[bi2, cg2] = bininfo (sc,“ResStatus”,“统计数据”,{“几率”,“悲哀”,“InfoValue”});disp (bi2)
本好与坏的几率,悲哀InfoValue __________出生______ ___ _____ {Group1的}803 397 0 0{“总数”}803 397 2.0227 2.0227南0
disp (cg2)
_____类别BinNumber * * *{“租户”}{“转租”}1{‘业主’}{‘其他’}1
使用分割算法与数值预测
为了演示数值预测的分裂,TmAtAddress”
,第一次使用autobinning
使用默认“单调”
算法。
sc = autobinning (sc,“TmAtAddress”);bi3 = bininfo (sc,“TmAtAddress”,“统计数据”,{“几率”,“悲哀”,“InfoValue”});disp (bi3)
本好与坏的几率,悲哀InfoValue _________________出生______ _____ __________{'[无穷,23)}239 129 1.8527 -0.087767 0.0023963{'[83)}480 232 2.069 0.02263 0.00030269{”(83年,正)}84年36 2.3333 0.14288 0.00199{“总数”}803 397 0.004689 2.0227南
然后使用autobinning
与“分裂”
算法。
sc = autobinning (sc,“TmAtAddress”,“算法”,“分裂”);闭= bininfo (sc,“TmAtAddress”,“统计数据”,{“几率”,“悲哀”,“InfoValue”});disp(闭)
本好与坏的几率,悲哀InfoValue _______出生_____ _____{'[负4)}20 12 1.6667 -0.19359 0.0010299{'(4、5)}4 7 0.57143 -1.264 0.015991{”(23)}215 110 1.9545 -0.034261 0.00031973{[23日,33)}130年39 3.3333 0.49955 0.0318{”(33岁,正)}434 229 1.8952 -0.065096 0.0023664{“总数”}803 397 0.051507 2.0227南
使用合并算法执行自动装箱
加载CreditCardData.mat
数据集。这个例子演示了使用“合并”
算法与分类和数值预测。
负载CreditCardData.mat
使用合并算法分类预测
合并分类预测,创建一个creditscorecard
使用默认排序的“几率”
然后使用bininfo
在分类预测“ResStatus”
。
sc = creditscorecard(数据,“IDVar”,“CustID”);[bi1, cg1] = bininfo (sc,“ResStatus”,“统计数据”,{“几率”,“悲哀”,“InfoValue”});disp (bi1);
本好与坏的几率,悲哀出生______替InfoValue * * *{‘业主’}365 177 2.0621 0.019329 0.0001682{“租户”}307 167 1.8383 -0.095564 0.0036638{‘其他’}131年53 2.4717 0.20049 0.0059418{“总数”}803 397 0.0097738 2.0227南
disp (cg1);
_____类别BinNumber * * *{‘业主’}1{“租户”}2{‘其他’}3
使用autobinning
并指定“合并”
算法。
sc = autobinning (sc,“ResStatus”,“算法”,“合并”);[bi2, cg2] = bininfo (sc,“ResStatus”,“统计数据”,{“几率”,“悲哀”,“InfoValue”});disp (bi2)
本好与坏的几率,悲哀……替InfoValue __________出生{Group1的}672 344 1.9535 -0.034802 0.0010314{的Group2} 131年53 2.4717 0.20049 0.0059418{“总数”}803 397 0.0069732 2.0227南
disp (cg2)
_____类别BinNumber * * *{“租户”}{‘业主’}1{‘其他’}2
使用合并算法与数值预测
展示一个合并的数值预测,TmAtAddress”
,第一次使用autobinning
使用默认“单调”
算法。
sc = autobinning (sc,“TmAtAddress”);bi3 = bininfo (sc,“TmAtAddress”,“统计数据”,{“几率”,“悲哀”,“InfoValue”});disp (bi3)
本好与坏的几率,悲哀InfoValue _________________出生______ _____ __________{'[无穷,23)}239 129 1.8527 -0.087767 0.0023963{'[83)}480 232 2.069 0.02263 0.00030269{”(83年,正)}84年36 2.3333 0.14288 0.00199{“总数”}803 397 0.004689 2.0227南
然后使用autobinning
与“合并”
算法。
sc = autobinning (sc,“TmAtAddress”,“算法”,“合并”);闭= bininfo (sc,“TmAtAddress”,“统计数据”,{“几率”,“悲哀”,“InfoValue”});disp(闭)
本好与坏的几率,悲哀InfoValue _________________出生_____ _____{[无穷,28)的}303 152 1.9934 -0.014566 8.0646 e-05{“[28、30)”} 27 2 13.5 1.8983 0.054264{'[98)} 428 216 1.9815 -0.020574 0.00022794{”(98106)“} 11 13 0.84615 -0.87147 0.016599{”(106年,正)}34 14 2.4286 0.18288 0.0012942{“总数”}803 397 0.072466 2.0227南
输入参数
sc
- - - - - -信用计分卡模型
creditscorecard
对象
信用计分卡模型,指定为一个creditscorecard
对象。使用creditscorecard
创建一个creditscorecard
对象。
PredictorNames
- - - - - -预测或预测因子名称自动垃圾箱
特征向量|单元阵列的特征向量
预测或预测因子名称自动垃圾桶,指定为一个字符特征向量的向量或一个单元阵列包含预测的名称或预测。PredictorNames
是区分大小写的,当没有PredictorNames
定义,所有预测PredictorVars
财产的creditscorecard
对象是扔进垃圾箱。
数据类型:字符
|细胞
名称-值参数
指定可选的双参数作为Name1 = Value1,…,以=家
,在那里的名字
参数名称和吗价值
相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。
R2021a之前,用逗号来分隔每一个名称和值,并附上的名字
在报价。
例子:sc = autobinning (sc、“算法”、“EqualFrequency”)
算法
- - - - - -算法的选择
“单调”
(默认)|特征向量和价值观“单调”
,“分裂”
,“合并”
,“EqualFrequency”
,“EqualWidth”
算法选择,指定为逗号分隔组成的“算法”
和一个特征向量表示使用哪个算法。相同的算法用于所有预测PredictorNames
。可能的值是:
“单调”
——(默认)单调相邻池算法(MAPA),也称为最大似然单调粗糙分类器(MLMCC)。监督优化装箱算法,旨在发现箱子有单调证据的效力(悲哀)趋势。该算法假定只有相邻的属性可以分组。因此,对于分类预测、分类排序(见前应用算法“SortCategories”
选择AlgorithmOptions
)。有关更多信息,请参见单调。“分裂”
-监督装箱算法,测量是用来把数据放入垃圾箱。支持的措施金宝app“分裂”
是基尼
,chi2
,infovalue
,熵
。由此产生的分歧必须这样函数最大化的获得信息。关于这些措施的更多信息,请参阅AlgorithmOptions
和分裂。“合并”
——监督自动装箱算法,测量用于合并箱到桶中。支持的措施金宝app“合并”
是chi2
,基尼
,infovalue
,熵
。结果合并必须这样,任何一对相邻的垃圾箱是统计上的不同,根据选择的措施。关于这些措施的更多信息,请参阅AlgorithmOptions
和合并。“EqualFrequency”
——无监督算法将数据划分为预定数量的箱子包含大约相同数量的观察。这个算法也被称为“等高”或“平等的深度。“分类预测,应用算法(见前类别排序“SortCategories”
选择AlgorithmOptions
)。有关更多信息,请参见相等的频率。“EqualWidth”
——无监督算法划分值的范围域的预测变量的预定数量的垃圾箱”宽度相等。“数值数据,测量宽度,当本边缘之间的距离。分类数据,宽度测量类别的数量在一个垃圾箱。分类预测,应用算法(见前类别排序“SortCategories”
选择AlgorithmOptions
)。有关更多信息,请参见平等的宽度。
数据类型:字符
AlgorithmOptions
- - - - - -算法选择的选项算法
{' InitialNumBins 10“趋势”,“汽车”,“SortCategories”,“可能性”}
为单调
(默认)|单元阵列与{
“OptionName”
,用OptionValue}
为算法
选项
算法选项选中算法
,指定为逗号分隔两人组成的“AlgorithmOptions”
和一个单元阵列。可能的值是:
为
单调
算法:{
“InitialNumBins”,n
}
——初始数量(n)的垃圾箱(缺省为10)。“InitialNumBins”
必须是一个整数>2
。仅用于数值预测。{“趋势”,“TrendOption”}
-确定证据的效力(悲哀)单调趋势预计将增加或减少。的值“TrendOption”
是:“汽车”
——(默认)自动决定是否增加或减少灾难的趋势。“增加”
——寻找越来越悲哀的趋势。“减少”
——寻找减少灾难的趋势。
可选的输入参数的值
“趋势”
不一定反映的曲线产生的有祸了。的参数“趋势”
讲述了算法来“寻找”增加或减少的趋势,但结果可能不会显示所需的趋势。例如,实际上数据时算法无法找到一个下降的趋势已经越来越悲哀的趋势。更多的信息“趋势”
选项,看到单调。{“SortCategories”、“SortOption”}
——仅用于分类预测。用于确定如何预测类别排序作为预处理步骤之前应用算法。的值“SortOption”
是:“几率”
——(默认)的类别按顺序增加的概率值,定义为“好”“坏”比观察,对于给定的类别。“货物”
——增加的类别按顺序排序的值“好”。“坏事”
——增加价值的类别按顺序排序的“坏”。“总数”
——增加的类别按顺序排序的值观察总数(“好”和“坏”)。“没有”
——没有排序。类别不变的现有秩序之前应用算法。(现有订单的分类类别分组可选的输出中可以看到bininfo
。)
有关更多信息,请参见分类类别
为
分裂
算法:{“InitialNumBins”,n}
——指定一个整数决定数量(n> 0)最初被预测到的垃圾箱在分裂之前。有效的数值预测。默认是50
。{“测量”,MeasureName}
——指定的测量“MeasureName”是下列之一:“基尼”
(默认),“Chi2”
,“InfoValue”
,或“熵”
。{“MinBad”,n}
——指定最小数量n(n> =0
每本)的坏事。默认值是1
,以避免纯粹的垃圾箱。{“MaxBad”,n}
——指定的最大数量n(n> =0
每本)的坏事。默认值是正
。{“MinGood”,n}
——指定最小数量n(n> =0
每本)的商品。默认值是1
,以避免纯粹的垃圾箱。{“MaxGood”,n}
——指定的最大数量n(n> =0
每本)的商品。默认值是正
。{“MinCount”,n}
——指定最小数量n(n> =0
每本)的观察。默认值是1
,以避免空箱子。{“MaxCount”,n}
——指定的最大数量n(n> =0
每本)的观察。默认值是正
。{“MaxNumBins”,n}
——指定的最大数量n(n> =2
)分裂造成的垃圾箱。默认值是5
。{“宽容”,托尔}
——指定最小增益(> 0)在信息功能,在迭代计划,选择最大化利益的分割点。默认值是1 e4
。{“意义”,n}
——卡方统计显著性水平阈值,上面发生了分裂。在区间值[0,1]
。默认是0.9
显著性水平(90%)。{“SortCategories”、“SortOption”}
——仅用于分类预测。用于确定如何预测类别排序作为预处理步骤之前应用算法。的值“SortOption”
是:“货物”
——增加的类别按顺序排序的值“好”。“坏事”
——增加价值的类别按顺序排序的“坏”。“几率”
——(默认)的类别按顺序增加的概率值,定义为“好”“坏”比观察,对于给定的类别。“总数”
——增加的类别按顺序排序的值观察总数(“好”和“坏”)。“没有”
——没有排序。类别不变的现有秩序之前应用算法。(现有订单的分类类别分组可选的输出中可以看到bininfo
。)
有关更多信息,请参见分类类别
为
合并
算法:{“InitialNumBins”,n}
——指定一个整数决定数量(n> 0)预测最初的箱子扔进垃圾箱之前合并。有效的数值预测。默认是50
。{“测量”,MeasureName}
——指定的测量“MeasureName”是下列之一:“Chi2”
(默认),“基尼”
,“InfoValue”
,或“熵”
。{“MinNumBins”,n}
——指定最小数量n(n> =2
)由于合并的垃圾箱。默认值是2
。{“MaxNumBins”,n}
——指定的最大数量n(n> =2
)由于合并的垃圾箱。默认值是5
。{“宽容”,n}
——指定的最小阈值低于合并发生的信息熵值和统计数据。有效值的间隔(0.1)
。默认是1 e3
。{“意义”,n}
——卡方统计显著性水平阈值,低于合并发生。在区间值[0,1]
。默认是0.9
显著性水平(90%)。{“SortCategories”、“SortOption”}
——仅用于分类预测。用于确定如何预测类别排序作为预处理步骤之前应用算法。的值“SortOption”
是:“货物”
——增加的类别按顺序排序的值“好”。“坏事”
——增加价值的类别按顺序排序的“坏”。“几率”
——(默认)的类别按顺序增加的概率值,定义为“好”“坏”比观察,对于给定的类别。“总数”
——增加的类别按顺序排序的值观察总数(“好”和“坏”)。“没有”
——没有排序。类别不变的现有秩序之前应用算法。(现有订单的分类类别分组可选的输出中可以看到bininfo
。)
有关更多信息,请参见分类类别
为
EqualFrequency
算法:{“NumBins”,n}
——指定所需的号码(n)的垃圾箱。默认值是{NumBins, 5}
和垃圾箱的数量必须是正数。{“SortCategories”、“SortOption”}
——仅用于分类预测。用于确定如何预测类别排序作为预处理步骤之前应用算法。的值“SortOption”
是:“几率”
——(默认)的类别按顺序增加的概率值,定义为“好”“坏”比观察,对于给定的类别。“货物”
——增加的类别按顺序排序的值“好”。“坏事”
——增加价值的类别按顺序排序的“坏”。“总数”
——增加的类别按顺序排序的值观察总数(“好”和“坏”)。“没有”
——没有排序。类别不变的现有秩序之前应用算法。(现有订单的分类类别分组可选的输出中可以看到bininfo
。)
有关更多信息,请参见分类类别
为
EqualWidth
算法:{“NumBins”,n}
——指定所需的号码(n)的垃圾箱。默认值是{NumBins, 5}
和垃圾箱的数量必须是正数。{“SortCategories”、“SortOption”}
——仅用于分类预测。用于确定如何预测类别排序作为预处理步骤之前应用算法。的值“SortOption”
是:“几率”
——(默认)的类别按顺序增加的概率值,定义为“好”“坏”比观察,对于给定的类别。“货物”
——增加的类别按顺序排序的值“好”。“坏事”
——增加价值的类别按顺序排序的“坏”。“总数”
——增加的类别按顺序排序的值观察总数(“好”和“坏”)。“没有”
——没有排序。类别不变的现有秩序之前应用算法。(现有订单的分类类别分组可选的输出中可以看到bininfo
。)
有关更多信息,请参见分类类别
例子:sc = autobinning (sc,“CustAge”,“算法”,“单调”,“AlgorithmOptions”{“趋势”,“增加”})
数据类型:细胞
显示
- - - - - -装箱过程的状态指示器来显示信息在命令行
“关闭”
(默认)|特征向量和价值观“上”
,“关闭”
指示器显示装箱过程的状态信息在命令行指定为逗号分隔组成的“显示”
和一个特征向量的值“上”
或“关闭”
。
数据类型:字符
输出参数
sc
——信用计分卡模型
creditscorecard
对象
信用计分卡模型,作为一个更新返回creditscorecard
对象包含自动确定装箱地图或规则(减少点或类别分组)一个或多个预测。有关使用的更多信息creditscorecard
对象,看到creditscorecard
。
请注意
如果您以前使用过modifybins
函数来手动修改箱子,这些变化是失去了在运行autobinning
因为所有的数据是基于内部autobinning规则自动封存。
更多关于
单调
的“单调”
算法的实现单调相邻池算法(MAPA),也称为最大似然单调粗糙分类器(MLMCC);看到安德森和托马斯引用。
预处理
在预处理阶段,预处理的数值预测在于应用等于频率装箱,箱的数量决定的“InitialNumBins”
参数(默认是10箱)。分类预测的预处理包括根据分类的类别“SortCategories”
标准(默认是按几率增加顺序排序)。排序不应用于序列预测。看到分类类别定义或描述AlgorithmOptions
选择“SortCategories”
为更多的信息。
主要算法
下面的例子说明了“单调”
算法数值数据的到达降低点。
本 | 好 | 坏 | 迭代 | 迭代 | 迭代3 | Iteration4 |
---|---|---|---|---|---|---|
|
127年 | 107年 | 0.543 | |||
|
194年 | 90年 | 0.620 | 0.683 | ||
|
135年 | 78年 | 0.624 | 0.662 | ||
|
164年 | 66年 | 0.645 | 0.678 | 0.713 | |
|
183年 | 56 | 0.669 | 0.700 | 0.740 | 0.766 |
最初,数字数据预处理与同等频率装箱。在这个示例中,为了简单起见,只有五个初始使用垃圾箱。第一列表示等于频率本范围,和第二和第三列有“好”和“坏”的数量每本。(观察的数量是1200,那么一个完美的频率相等装箱会导致五箱240的观察。在这种情况下,观察每本240完全不匹配。这是一个常见的情况,当数据有重复值)。
单调发现破发点累积比例的基础上“好”的观察。在“迭代”
列,第一个值(0.543)是“好”的数量在第一本(127),观察除以总数量的观察本(127 + 107)。第二个值(0.620)是“好”的数量的观察在箱子1和2,除以总数量的观察箱子1和2。等等。第一个削减点设置在哪里找到这个累积的最低比率,这是第一本在这个例子。这是迭代1月底。
后从第二本(第一本最小值的位置在前面的迭代),累计计算比例的“好”的观察。第二个减少点设置在最低的累积比例。在这种情况下,它是在3号本,因此箱2和3合并。
该算法所得相同的方式有两个更多的迭代。在这个特殊的例子中,最后只合并箱2和3。最后装箱有四个箱子割分在33000年,42000年和47000年。
分类数据,唯一的区别是在于重新排序分类的预处理步骤。考虑下面的分类数据:
本 | 好 | 坏 | 几率 |
---|---|---|---|
|
365年 | 177年 | 2.062 |
|
307年 | 167年 | 1.838 |
|
131年 | 53 | 2.474 |
的预处理步骤中,默认情况下,类的类别“几率”
。(见分类类别定义或描述AlgorithmOptions
选择“SortCategories”
为更多的信息。)然后,它适用于上述同样的步骤,如下表所示:
本 | 好 | 坏 | 几率 | 迭代 | 迭代 | 迭代3 |
---|---|---|---|---|---|---|
“租户” | 307年 | 167年 | 1.838 | 0.648 | ||
“业主” | 365年 | 177年 | 2.062 | 0.661 | 0.673 | |
“其他” | 131年 | 53 | 2.472 | 0.669 | 0.683 | 0.712 |
在这种情况下,单调算法不会合并任何类别。唯一的区别,而算法的应用程序之前的数据,现在按类别“几率”
。
在上面的数字和分类的例子中,隐式“趋势”
的选择是“增加”
。(见的描述AlgorithmOptions
选择“单调”
“趋势”
选择。)如果你设置的趋势“减少”
,算法寻找最大最小的(而不是)累积比率确定切割点。在这种情况下,在迭代1,最大的最后一本,这将意味着所有箱子都应该合并成一个单一的垃圾箱。装箱信息到一个本是全损,没有实际用途。因此,当选择趋势导致一个本,拒绝单调实现,算法返回后的垃圾箱发现预处理步骤。这个状态是初始频率相等装箱为数值数据和分类数据的分类类别。单调的实现算法在默认情况下使用启发式识别趋势(“汽车”
选择“趋势”
)。
分裂
分裂是一个监督自动装箱算法,测量是用来把数据分割成桶。支持措施金宝app基尼
,chi2
,infovalue
,熵
。
在内部,分割算法过程如下:
所有类别合并成一个单一的垃圾箱。
在第一个迭代,所有潜在的割点指数测试看到哪一个结果的最大增加信息函数(
基尼
,InfoValue
,熵
,或Chi2
)。然后选择割点,本是分裂的。重申未来sub-bins相同的步骤。
算法停止当达到最大数量的垃圾箱或分裂时不会导致任何额外的信息改变功能的变化。
下表的分类预测总结变化的值函数在每个迭代。在这个例子中,“基尼”
是选择的措施,这样的目标是看到一个降低基尼测量在每个迭代。
迭代0本数量 | 成员 | 基尼 | 迭代1箱数量 | 成员 | 基尼 | 迭代2箱数量 | 成员 | 基尼 |
---|---|---|---|---|---|---|---|---|
1 |
“租户” | 1 | “租户” | 1 | “租户” | 0.45638 | ||
1 |
“转租” | 1 | “转租” | 0.44789 | 1 | “转租” | ||
1 |
“业主” | 1 | “业主” | 2 | “业主” | 0.43984 | ||
1 |
“其他” | 2 | “其他” | 0.41015 | 3 | “其他” | 0.41015 | |
总基尼 |
0.442765 | 0.442102 | 0.441822 | |||||
相对变化 | 0 | 0.001498 | 0.002128 |
相对变化迭代我关于基尼系数衡量在迭代整个箱子的吗我1。最终结果对应于上次迭代,在这个例子中,是迭代2。
下表的数值预测总结变化的值函数在每个迭代。在这个例子中,“基尼”
是选择的措施,这样的目标是看到一个降低基尼测量在每个迭代。因为大多数数值预测数据集包含许多垃圾箱,有一个数据预处理步骤是pre-binned 50频率相同进垃圾箱中。这使得有效割点可供选择的分裂更小,更易于管理。
迭代0本数量 | 成员 | 基尼 | 迭代1箱数量 | 基尼 | 迭代2箱数量 | 基尼 | 迭代3箱数量 | 基尼 |
---|---|---|---|---|---|---|---|---|
1 |
“21” |
“(负无穷,47岁)” |
0.473897 | “(负无穷,47岁)” |
0.473897 | “(负无穷,35)” |
0.494941 | |
1 |
“22” |
“[47岁,正]” |
0.385238 | “[61]” |
0.407072 | “[35岁,47]” |
0.463201 | |
1 |
“23” |
”(61年,正) |
0.208795 | “[61]” |
0.407072 | |||
1 |
“74” |
0 | ”(61年,正) |
0.208795 | ||||
总基尼 |
0.442765 | 0.435035 | 0.432048 | 0.430511 | ||||
相对变化 | 0 | 0.01746 | 0.006867 | 0.0356 |
由此产生的分歧必须这样的信息(内容)增加功能。因此,最好的分裂是导致最大信息增益。函数支持的信息是:金宝app
基尼:每个分裂导致提高基尼系数,定义为:
G_r = 1 - G_hat / G_p
G_p
基尼系数衡量的父节点,也就是说,在分裂之前给定垃圾箱/类别的。G_hat
加权基尼系数衡量当前分裂:G_hat =总和((nj / N) *基尼(j), j = 1 . . m)
在哪里
新泽西
观测的总数吗j本。N
观测的数据集的总数。米
是分裂的数量给定变量。基尼(j)
基尼系数衡量的吗j本。基尼分裂/节点的测量j是:
基尼(j) = 1 - (Gj ^ 2 + Bj ^ 2) / (nj) ^ 2
Gj
,Bj
=数量的商品和坏事为本j。InfoValue
:信息价值为每个分裂导致的增加的总信息。保留的分裂是导致最大增益,在可接受的公差。价值的信息(IV)对于一个给定的观察j被定义为:4 =总和((pG_i-pB_i) *日志(pG_i / pB_i), i = 1 . . n)
pG_i
是在观察商品的分布我
,这是(我)/ Total_Goods商品
。pB_i
的分布在观察坏事吗我
,这是坏事(我)/ Total_Bads
。n
是箱子的总数。熵
:每个分裂导致熵减少方差定义为:E =总和(ni * Ei, i = 1 . . n)
在哪里
倪
总菌数本吗我
,这是(倪= Gi + Bi)
。Ei
是连续的熵(或本)我
,定义为:Ei =总和(Gi值(Gi / ni) + Bi * log2 (Bi / ni)) / N, i = 1 . . N
Chi2
:Chi2计算成对每一对垃圾箱和措施统计两组之间的差异。选择分裂点(割点或类别索引)的最大Chi2值是:Chi2 =总和(和((Aij - Eij) ^ 2 / Eij, j k = 1 . .), i = m m + 1)
在哪里
米
将值从1……n - 1
,在那里n
是箱子的数量。k
类的数量。在这里k = 2
(商品,坏事)。Aij
本观测的数量我
,j
类。Eij
是预期的频率Aij
,等于(Ri * Cj) / N
。国际扶轮
本观测的数量我
,等于总和(Aij j k = 1 . .)
。Cj
观察的数量吗j
th类,等于sum (Aij, I = m m + 1)
。N
是观察,总数等于总和(Cj, j k = 1 . .)
。
的Chi2
衡量整个样本(而不是成对Chi2
测量相邻垃圾箱)是:
Chi2 =总和(和((Aij - Eij) ^ 2 / Eij, j k = 1 . .), i = 1 . . n)
合并
合并是一个监督自动装箱算法,测量用于合并箱到桶中。支持措施金宝appchi2
,基尼
,infovalue
,熵
。
在内部,合并算法所得如下:
所有类别最初是在不同的垃圾箱。
用户选择的信息函数(
Chi2
,基尼
,InfoValue
或熵
)计算任何一对相邻的垃圾箱。在每个迭代中,最小的一对信息变化来衡量选择的功能合并。
合并一直持续到:
成对所有信息值大于设定的阈值显著性水平或相对变化小于公差。
如果最后,垃圾箱的数量仍大于
MaxNumBins
允许的,合并是迫使直到有最多MaxNumBins
箱里。同样,当只有合并停止MinNumBins
箱里。
直言,原箱/类别是预先根据用户选择集的排序。对于数值型数据,数据预处理
IntialNumBins
箱子合并算法开始前相同的频率。
下表的分类预测总结变化的值函数在每个迭代。在这个例子中,“Chi2”
选择的措施。默认的排序几率
应用作为预处理步骤。的Chi2
价值报告下面的行我是箱子我和我+ 1。显著性水平是0.9
(90%),这样逆Chi2
值是2.705543
。这是阈值低于相邻的双箱合并。容器的最低数量是2。
迭代0本数量 | 成员 | Chi2 | 迭代1箱数量 | 成员 | Chi2 | 迭代2箱数量 | 成员 | Chi2 |
---|---|---|---|---|---|---|---|---|
1 |
“租户” | 1.007613 | 1 | “租户” | 0.795920 | 1 | “租户” | |
2 |
“转租” | 0.257347 | 2 | “转租” | 1 | “转租” | ||
3 |
“业主” | 1.566330 | 2 | “业主” | 1.522914 | 1 | “业主” | 1.797395 |
4 |
“其他” | 3 | “其他” | 2 | “其他” | |||
总Chi2 |
2.573943 | 2.317717 | 1.797395 |
下表的数值预测总结变化的值函数在每个迭代。在这个例子中,“Chi2”
选择的措施。
迭代0本数量 | Chi2 | 迭代1箱 | Chi2 | 最后一次迭代垃圾箱 | Chi2 | |
---|---|---|---|---|---|---|
“(负无穷,22)” |
0.11814 | “(负无穷,22)” |
0.11814 | “(负无穷,33)” |
8.4876 | |
“(22、23)” |
1.6464 | “(22、23)” |
1.6464 | ”33岁的[48] |
7.9369 | |
… |
… | “[64]” |
9.956 | |||
“[58 59]” |
0.311578 | “[58 59]” |
0.27489 | “(64、65)” |
9.6988 | |
“(59、60)” |
0.068978 | “(59,61)” |
1.8403 | ”(65年,正) |
南 | |
“[61]” |
1.8709 | “(61、62)” |
5.7946 | … | ||
“(61、62)” |
5.7946 | … | ||||
… | “(69、70)” |
6.4271 | ||||
“(69、70)” |
6.4271 | ”(70年,正) |
南 | |||
”(70年,正) |
南 | |||||
总Chi2 |
67.467 | 67.399 | 23.198 |
结果合并必须这样,任何一对相邻的垃圾箱是统计上的不同,根据选择的措施。这些措施支持金宝app合并
是:
Chi2
:Chi2计算成对每一对垃圾箱和措施统计两组之间的差异。选择合并在一个点(割点或类别索引)最大Chi2值是:Chi2 =总和(和((Aij - Eij) ^ 2 / Eij, j k = 1 . .), i = m m + 1)
在哪里
米
将值从1……n - 1
,n
是箱子的数量。k
类的数量。在这里k = 2
(商品,坏事)。Aij
本观测的数量我
,j
类。Eij
是预期的频率Aij
,等于(Ri * Cj) / N
。国际扶轮
本观测的数量我
,等于总和(Aij j k = 1 . .)
。Cj
观察的数量吗j
th类,等于sum (Aij, I = m m + 1)
。N
是观察,总数等于总和(Cj, j k = 1 . .)
。的
Chi2
衡量整个样本(而不是成对Chi2
测量相邻垃圾箱)是:Chi2 =总和(和((Aij - Eij) ^ 2 / Eij, j k = 1 . .), i = 1 . . n)
基尼:每个合并导致降低基尼系数,定义为:
G_r = 1 - G_hat / G_p
G_p
基尼系数衡量的父节点,也就是说,之前给定垃圾箱/类别的合并。G_hat
加权基尼系数衡量当前合并:G_hat =总和((nj / N) *基尼(j), j = 1 . . m)
在哪里
新泽西
观测的总数吗j本。N
观测的数据集的总数。米
是合并的数量给定变量。基尼(j)
基尼系数衡量的吗j本。基尼合并/节点的测量j是:
基尼(j) = 1 - (Gj ^ 2 + Bj ^ 2) / (nj) ^ 2
Gj
,Bj
=数量的商品和坏事为本j。InfoValue
:信息价值为每个合并将导致减少的总信息。保留的合并是一个结果最小增益,在可接受的公差。价值的信息(IV)对于一个给定的观察j被定义为:4 =总和((pG_i-pB_i) *日志(pG_i / pB_i), i = 1 . . n)
pG_i
是在观察商品的分布我
,这是(我)/ Total_Goods商品
。pB_i
的分布在观察坏事吗我
,这是坏事(我)/ Total_Bads
。n
是箱子的总数。熵
:每个合并导致熵增加方差定义为:E =总和(ni * Ei, i = 1 . . n)
在哪里
倪
总菌数本吗我
,这是(倪= Gi + Bi)
。Ei
是连续的熵(或本)我
,定义为:Ei =总和(Gi值(Gi / ni) + Bi * log2 (Bi / ni)) / N, i = 1 . . N
请注意
当使用合并算法,如果有纯垃圾桶(箱数为零货物
或零计数坏事
),统计信息价值和熵等非限定的值。考虑到这一点,频移。5
适用于计算各种统计数据时算法发现纯粹的垃圾箱。
相等的频率
无监督算法将数据划分为预定数量的箱子包含大约相同数量的观察。
EqualFrequency
被定义为:
让v [1], [2],…,v[N] be the sorted list of different values or categories observed in the data. Let f[我)是v的频率(我]。让F [k]= [1]+……+ f (k)的累积和频率的k排序值。那么F [N)的总数是一样的观察。
定义AvgFreq
= F (N)/NumBins,这是理想的每箱装箱后平均频率。的n减少点指数的指数k这样的距离abs (F (k]-n*AvgFreq
)是最小化。
这条规则匹配的累积频率n本。如果一个值包含太多的观察,等于频率垃圾箱是不可能的,收益率低于上述规则NumBins总箱。在这种情况下,算法决定NumBins分手垃圾箱,垃圾箱的顺序垃圾箱了。
分类预测的预处理包括根据分类的类别“SortCategories”
标准(默认是按几率增加顺序排序)。排序不应用于序列预测。看到分类类别定义或描述AlgorithmOptions
选择“SortCategories”
为更多的信息。
平等的宽度
无监督算法,将值的范围域的预测变量的预定数量的垃圾箱”宽度相等。“数值数据,测量宽度,当本边缘之间的距离。分类数据,宽度测量类别的数量在一个垃圾箱。
的EqualWidth
选项的定义是:
对于数值型数据,如果MinValue
和MaxValue
最小和最大数据值,那么
宽度= (MaxValue - MinValue) / NumBins
割点
将MinValue
+宽度,MinValue
+ 2 *宽度,…MaxValue
——宽度。如果一个MinValue
或MaxValue
没有指定使用吗modifybins
函数,EqualWidth
选择集MinValue
和MaxValue
观察到的最小值和最大值的数据。
分类数据,如果有NumCats原始的数量分类
宽度= NumCats / NumBins,
分类预测的预处理包括根据分类的类别“SortCategories”
标准(默认是按几率增加顺序排序)。排序不应用于序列预测。看到分类类别定义或描述AlgorithmOptions
选择“SortCategories”
为更多的信息。
分类类别
作为分类数据的预处理步骤,“单调”
,“EqualFrequency”
,“EqualWidth”
金宝app支持“SortCategories”
输入。这是重新排序的目的类别申请前的主要算法。默认的排序标准排序“几率”
。例如,假设数据最初是这样的:
本 | 好 | 坏 | 几率 |
---|---|---|---|
“业主” |
365年 | 177年 | 2.062 |
“租户” |
307年 | 167年 | 1.838 |
“其他” |
131年 | 53 | 2.472 |
预处理步骤后,将按行“几率”
和表是这样的:
本 | 好 | 坏 | 几率 |
---|---|---|---|
“租户” |
307年 | 167年 | 1.838 |
“业主” |
365年 | 177年 | 2.062 |
“其他” |
131年 | 53 | 2.472 |
三个算法只合并相邻的垃圾箱,所以的初始订单类别差异最后装箱。的“没有”
选择“SortCategories”
将原始表不变。排序标准支持的描述,请参阅的描述金宝appAlgorithmOptions
选择“SortCategories”
。
建设记分卡,最初的顺序分类,任何装箱算法或修改应用之前,第一个输出所示的顺序bininfo
。如果箱子被修改(手动modifybins
或自动autobinning
),使用可选的输出(cg
,“类别分组”
)bininfo
得到当前的类别。
的“SortCategories”
选择对分类预测没有影响的“顺序”
参数设置为true(请参阅“顺序”
在MATLAB输入参数®分类数组为分类
。顺序数据的自然秩序,这是荣幸的预处理步骤算法把分类的顺序不变。只有分类预测的“顺序”
参数是假的(默认选项)重新排序显示的类别“SortCategories”
标准。
使用autobinning
与重量
当观察权重定义使用可选的WeightsVar
参数在创建一个creditscorecard
对象,而不是数行,在每个垃圾桶,是好是坏autobinning
函数累积行的重量在每本是好是坏。
“频率”报道不再是基本的“数”的行,但“累积重量”的行,是好是坏,在一个特定的垃圾箱。一旦这些“加权频率”,所有其他的相关统计数据(好
,坏
,几率
,有祸了
,InfoValue
)与通常的计算公式。有关更多信息,请参见信用计分卡建模使用观察权重。
引用
[1]安德森,R。信用评分工具包。牛津大学出版社,2007年。
[2]科伯,R。“ChiMerge:数值型属性的离散化。”aaai - 92程序。1992年。
[3],H。等人。数据挖掘、知识和发现。6卷。问题4。2002年10月,页393 - 423。
[4]Refaat, M。数据准备使用SAS数据挖掘。2006年摩根考夫曼。
[5]Refaat, M。信用风险记分卡:使用情景应用程序开发和实现。lulu.com, 2011。
[6]托马斯,L。,等。信用评分和它的应用程序。工业与应用数学学会,2002年。
版本历史
介绍了R2014b
Beispiel offnen
您有一张这本Beispiels geanderte版本。您这本Beispiel麻省理工学院古老Anderungen offnen吗?
MATLAB-Befehl
您有窗户的链接geklickt,汪汪汪der diesem MATLAB-Befehl entspricht:
在das MATLAB-Befehlsfenster Fuhren您窝Befehl军队Eingabe来自。浏览器unterstutzen MATLAB-Befehle。
你也可以从下面的列表中选择一个网站:
表现最好的网站怎么走吗
选择中国网站(中文或英文)最佳站点的性能。其他MathWorks国家网站不优化的访问你的位置。