autobinning

对给定的预测器执行自动分类

描述

例子

sc= autobinning (sc对所有预测器执行自动分类。

自动分类查找分类映射或规则,将数字数据分类并对分类数据分类分组。存储在creditscorecard对象。要应用分级规则的creditscorecard对象数据,或新的数据集,使用bindata.

例子

sc= autobinning (scPredictorNames执行中给出的预测结果的自动分级PredictorNames

自动分类查找分类映射或规则,将数字数据分类并对分类数据分类分组。存储在creditscorecard对象。要应用分级规则的creditscorecard对象数据,或新的数据集,使用bindata.

例子

sc= autobinning (___名称,价值执行中给出的预测结果的自动分级PredictorNames使用可选的名称值对参数。查看名称值参数算法有关所支持的分类算法的说明。金宝app

自动分类查找分类映射或规则,将数字数据分类并对分类数据分类分组。存储在creditscorecard对象。要应用分级规则的creditscorecard对象数据,或新的数据集,使用bindata.

例子

全部折叠

创建一个creditscorecard对象使用CreditCardData.mat文件加载数据(使用来自Refaat 2011的数据集)。

加载CreditCardDatasc = creditscorecard(数据,“IDVar”“客户ID”);

使用默认选项执行自动分类。默认情况下,autobinning将所有预测器装箱并使用单调算法。

sc = autobinning (sc);

使用bininfo显示预测器的分类数据CustAge

bi = bininfo (sc,“CustAge”
bi =8×6表本好不好悲哀InfoValue几率  _____________ ____ ___ ______ _________ _________ {'[- 正无穷,33)}70年53 1.3208 -0.42622 0.019746{[33岁,37)}64年47 1.3617 -0.39568 0.015308{[37、40)}73年47 1.5532 -0.26411 0.0072573{'[40岁,46)}174 94 1.8511 -0.088658 0.001781{25[46岁,48)}61 2.44 0.18758 0.0024372 {[48,58)}263 105 2.5048 0.21378 0.013476{'[58,Inf]'} 98 26 3.7692 0.62245 0.0352{'总计'}803 397 2.0227 NaN 0.095205

使用plotbins显示预测器的直方图和WOE曲线CustAge

plotbins (sc,“CustAge”

创建一个creditscorecard对象使用CreditCardData.mat文件来加载数据(使用Refaat 2011的数据集)。

加载CreditCardDatasc = creditscorecard(数据);

对预测器执行自动分类CustIncome使用默认选项。默认情况下,autobinning使用单调算法。

sc = autobinning (sc,“CustIncome”);

使用bininfo显示已装箱的数据。

bi = bininfo (sc,“CustIncome”
bi =8×6表本好不好悲哀InfoValue几率  _________________ ____ ___ _______ _________ __________ {'[- 正无穷,29000)}53 58 0.91379 -0.79457 0.06364{[29000、33000)}74年49 1.5102 -0.29217 0.0091366{[33000、35000)的36}68 1.8889 -0.06843 0.00041042{[35000、40000)的}193 98 1.9694 -0.026696 0.00017359{[40000、42000)}68 2 -0.011271 - 1.0819 e-05 34{'[42000,47000)'} 164 66 2.4848 0.20579 0.0078175 {'[47000,Inf]'} 183 56 3.2679 0.47972 0.041657 {' total '} 803 397 2.0227 NaN 0.12285

创建一个creditscorecard对象使用CreditCardData.mat文件来加载数据(使用Refaat 2011的数据集)。

加载CreditCardDatasc = creditscorecard(数据);

对预测器执行自动分类CustIncome使用单调初始箱数设置为20的算法。这个例子显式地设置了算法AlgorithmOptions名称-值参数。

AlgoOptions = {“InitialNumBins”, 20};sc = autobinning (sc,“CustIncome”“算法”“单调”'algorithmOptions'...algoOptions);

使用bininfo显示已装箱的数据。这里还显示了分隔容器的切点。

(bi, cp) = bininfo (sc,“CustIncome”
bi =11×6表本好不好悲哀InfoValue几率  _________________ ____ ___ _______ _________ __________ {'[- 正无穷,19000)}2 3 0.66667 -1.1099 0.0056227{[19000、29000)的55}51 0.92727 -0.77993 0.058516{[29000、31000)的}29日26日1.1154 -0.59522 0.017486{[31000、34000)}80年42 1.9048 -0.060061 0.0003704{[34000、35000)的}33 17 1.9412 -0.041124 7.095 e-05{'[35000,40000)'} 193 98 1.9694 -0.026696 0.00017359 {'[40000,42000)'} 68 34 2 -0.011271 1.0819e-05 {'[42000,43000)'} 39 16 2.4375 0.18655 0.001542 {'[43000,47000)'} 125 50 2.5 0.21187 0.0062972 {'[47000,Inf]'} 183 3.2679 0.47972 0.041657{'总计'}803 397 2.0227 NaN 0.13175
cp =9×119000 29000 31000 34000 35000 40000 42000 43000 47000

这个例子展示了如何使用autobinning默认的单调算法和AlgorithmOptions关联的名称-值对参数单调算法。这AlgorithmOptions单调算法是三个名称-值对参数:“InitialNumBins”“趋势”,“SortCategories”“InitialNumBins”“趋势”是否适用于数值预测和“趋势”“SortCategories”适用于分类预测。

创建一个creditscorecard对象使用CreditCardData.mat文件加载数据(使用来自Refaat 2011的数据集)。

加载CreditCardDatasc = creditscorecard(数据,“IDVar”“客户ID”);

对数值预测器执行自动分类CustIncome使用单调算法20个箱。这个例子显式地设置了算法参数和AlgorithmOptions名称-值参数“InitialNumBins”“趋势”

AlgoOptions = {“InitialNumBins”, 20岁,“趋势”“增加”};sc = autobinning (sc,“CustIncome”“算法”“单调”...'algorithmOptions', AlgoOptions);

使用bininfo显示已装箱的数据。

bi = bininfo (sc,“CustIncome”
bi =11×6表本好不好悲哀InfoValue几率  _________________ ____ ___ _______ _________ __________ {'[- 正无穷,19000)}2 3 0.66667 -1.1099 0.0056227{[19000、29000)的55}51 0.92727 -0.77993 0.058516{[29000、31000)的}29日26日1.1154 -0.59522 0.017486{[31000、34000)}80年42 1.9048 -0.060061 0.0003704{[34000、35000)的}33 17 1.9412 -0.041124 7.095 e-05{'[35000,40000)'} 193 98 1.9694 -0.026696 0.00017359 {'[40000,42000)'} 68 34 2 -0.011271 1.0819e-05 {'[42000,43000)'} 39 16 2.4375 0.18655 0.001542 {'[43000,47000)'} 125 50 2.5 0.21187 0.0062972 {'[47000,Inf]'} 183 3.2679 0.47972 0.041657{'总计'}803 397 2.0227 NaN 0.13175

创建一个creditscorecard对象使用CreditCardData.mat文件来加载数据(使用Refaat 2011的数据集)。

加载CreditCardDatasc = creditscorecard(数据,“IDVar”“客户ID”);

对预测器执行自动分类CustIncomeCustAge使用默认单调算法与AlgorithmOptions为了InitialNumBins趋势

AlgoOptions = {“InitialNumBins”, 20岁,“趋势”“增加”};sc = autobinning (sc, {“CustAge”“CustIncome”},“算法”“单调”...'algorithmOptions', AlgoOptions);

使用bininfo显示已装箱的数据。

bi1 = bininfo (sc,“CustIncome”
BI 1 =11×6表本好不好悲哀InfoValue几率  _________________ ____ ___ _______ _________ __________ {'[- 正无穷,19000)}2 3 0.66667 -1.1099 0.0056227{[19000、29000)的55}51 0.92727 -0.77993 0.058516{[29000、31000)的}29日26日1.1154 -0.59522 0.017486{[31000、34000)}80年42 1.9048 -0.060061 0.0003704{[34000、35000)的}33 17 1.9412 -0.041124 7.095 e-05{'[35000,40000)'} 193 98 1.9694 -0.026696 0.00017359 {'[40000,42000)'} 68 34 2 -0.011271 1.0819e-05 {'[42000,43000)'} 39 16 2.4375 0.18655 0.001542 {'[43000,47000)'} 125 50 2.5 0.21187 0.0062972 {'[47000,Inf]'} 183 3.2679 0.47972 0.041657{'总计'}803 397 2.0227 NaN 0.13175
bi2 = bininfo (sc,“CustAge”
bi2 =8×6表本好不好悲哀InfoValue几率  _____________ ____ ___ ______ _________ __________ {'[- 正无穷,35)}93 76 1.2237 -0.50255 0.038003{[35 40)的}114 71 1.6056 -0.2309 0.0085141{[40,42岁)的}52 30 1.7333 -0.15437 0.0016687{[42、44)的}58 32 1.8125 -0.10971 0.00091888{[44岁,47)}97年51 1.902 -0.061533 0.00047174 {' [62)}333 130 2.5615 - 0.236190.020605 {'[62,Inf]'} 56 7 8 1.375 0.071647{'总计'}803 397 2.0227 NaN 0.14183

创建一个creditscorecard对象使用CreditCardData.mat文件来加载数据(使用Refaat 2011的数据集)。

加载CreditCardDatasc = creditscorecard(数据);

对被称为分类预测器的预测器执行自动分类ResStatus使用默认选项。默认情况下,autobinning使用单调算法。

sc = autobinning (sc,'resstatus');

使用bininfo显示已装箱的数据。

bi = bininfo (sc,'resstatus'
bi =4×6表Bin Good Bad Odds WOE InfoValue ______________ _____________ _________ _________ {'Tenant'} 307 167 1.8383 -0.095564 0.0036638 {'Home Owner'} 365 177 2.0621 0.019329 0.0001682 {'Other'} 131 53 2.4717 0.20049 0.0059418 {' total '} 803 397 2.0227 NaN 0.0097738

此示例显示如何修改数据(仅用于此示例)以说明使用该分类的分类预测器单调算法。

创建一个creditscorecard对象使用CreditCardData.mat文件来加载数据(使用Refaat 2011的数据集)。

加载CreditCardData

添加两个新类别并更新响应变量。

newdata =数据;rng (“默认”);%,持续重现预测='resstatus';status = newdata.status;numobs = length(newdata。(predictor));Ind1 = Randi(numobs,100,1);Ind2 = Randi(numobs,100,1);newdata。(预测器)(Ind1)=“转租人”;newdata。(Ind2) =(预测)“共同所有人”;状态(Ind1) =兰迪(2100 1)1;状态(Ind2) =兰迪(2100 1)1;newdata。状态=状态;

更新creditscorecard对象使用newdata并将这些箱子绘制出来,以便以后进行比较。

scnew = creditscorecard (newdata,“IDVar”“客户ID”);(bi, cg) = bininfo (scnew预测)
bi =6×6表本好不好悲哀InfoValue几率  ______________ ____ ___ ______ ________ _________ {' 房主}308 154 2 0.092373 - 0.0032392{“租户”}264 136 1.9412 0.06252 0.0012907{‘其他’}109年49 2.2245 0.19875 0.0050386{转租人的}42 42 1 -0.60077 - 0.026813{“共同所有人”}52 44 1.1818 -0.43372 0.015802{“总数”}775 425 0.052183 1.8235南
cg =5×2表类别BinNumber  ______________ _________ {' 房主'}1{“租户”}2{‘其他’}3{转租人的}4{“共同所有人”}5
plotbins (scnew预测)

对类别执行自动分类预测使用默认单调算法的AlgorithmOptions名称 - 值对参数“SortCategories”“趋势”

AlgoOptions = {“SortCategories”'商品'“趋势”“增加”};Scnew = autobinning(Scnew,Predictor,“算法”“单调”...'algorithmOptions', AlgoOptions);

使用bininfo显示bin信息。第二个输出参数“重心”获取bin成员关系,即每个组所属的bin编号。

(bi, cg) = bininfo (scnew预测)
bi =4×6表Bin Good Bad Odds WOE InfoValue __________ _______ ______ ________ _________ {'Group1'} 42 42 1 -0.60077 0.026813 {'Group2'} 52 44 1.1818 -0.43372 0.015802 {'Group3'} 681 339 2.0088 0.096788 0.0078459 {' total '} 775 425 1.8235 NaN 0.05046
cg =5×2表类别BinNumber  ______________ _________ {' 转租人'}1{“共同所有人”}2{‘其他’}3{“租户”}3{‘业主’}3

绘制箱和比较直方图绘制的预先换水。

plotbins (scnew预测)

创建一个creditscorecard对象使用CreditCardData.mat文件来加载Datamissing.与缺失值。

加载CreditCardData.mat头(dataMissing, 5)
ans =5×11表CustID CustAge TmAtAddress ResStatus EmpStatus CustIncome TmWBank OtherCC AMBalance UtilRate地位  ______ _______ ___________ ___________ _________ __________ _______ _______ _________ ________ ______ 53 62 <定义>未知50000 55是的1055.9 - 0.22 0 2 61 22业主雇佣52000 25是的1161.6 - 0.24 0 3 47 30租户雇佣了37000 61877.23 0.29 0 4 NaN 75自雇业主53000 20是157.37 0.08 0 5 68 56自雇业主53000 14是561.84 0.11 0
fprintf('行数:%d\n',高度(Datamissing))
行数:1200行
fprintf('缺少值的数量汇编:%d \ n'总和(ismissing (dataMissing.CustAge)))
缺失值的数量汇编:30
fprintf(restatus: %d\n总和(ismissing (dataMissing.ResStatus)))
ResStatus: 40

使用creditscorecard使用name-value参数'BinMissingData'设置为真正的将丢失的数字和分类数据装入单独的容器中。

sc = creditscorecard(Datamissing,'BinMissingData',真正的);disp (sc)
creditscorecard with properties: GoodLabel: 0 ResponseVar: 'status' WeightsVar: " VarNames: {1x11 cell} NumericPredictors: {1x7 cell} CategoricalPredictors: {'ResStatus' 'EmpStatus' 'OtherCC'} BinMissingData: 1 IDVar: " PredictorVars: {1x10 cell} Data: [1200x11 table]

属性执行自动分类合并算法。

sc = autobinning (sc,“算法”“合并”);

显示bin信息的数字数据“CustAge”这包括在一个单独的标签箱中丢失的数据<失踪>这是最后一个箱子。不管用什么分类算法autobinning,该算法的非丢失的数据和料仓工作<失踪>预测器的数值总是在最后一个容器中。

(bi, cp) = bininfo (sc,“CustAge”);disp (bi)
宾好差赔率WOE INFOVALUE _____________ ____ ___ _______ ________ __________ { '[-Inf,32)'} 56 39 1.4359 -0.34263 0.0097643 { '[32,33)'} 13 13 1 -0.70442 0.011663 {'[33,34)'} 9 11 0.81818 -0.90509 0.014934 {'[34,65)”} 677 317 2.1356 0.054351 0.002424 { '[65,天道酬勤]'} 29 6 4.8333 0.87112 0.018295 { '<缺失>'} 19 11 1.7273 -0.15787 0.00063885 {'总计'} 803 397 2.0227的NaN 0.057718
plotbins (sc,“CustAge”

显示垃圾箱信息,用于分类数据'resstatus'这包括在一个单独的标签箱中丢失的数据<失踪>这是最后一个箱子。不管用什么分类算法autobinning,该算法的非丢失的数据和料仓工作<失踪>预测器的分类值总是最后一个箱子。

(bi, cg) = bininfo (sc,'resstatus');disp (bi)
Bin Good Bad Odds WOE InfoValue _____________ _____________ _________ __________ {'Group1'} 648 332 1.9518 -0.035663 0.0010449 {'Group2'} 128 52 2.4615 0.19637 0.0055808 {''} 27 13 2.0769 0.026469 2.3248e-05 {' total '} 803 397 2.0227 NaN 0.0066489
plotbins (sc,'resstatus'

这个示例演示如何使用'分裂'算法与分类和数字预测。加载CreditCardData.mat数据集和修改,以便它包含预测器的四个类别ResStatus”演示分割算法是如何工作的。

加载CreditCardData.matx = data.ResStatus;find(x == .“租户”);Nx =长度(印第安纳州);x(印第安纳州(1:地板(Nx / 3))) ='Subletter';数据。ResStatus = x;

创建一个creditscorecard和使用bininfo来显示'统计数据'

sc = creditscorecard(数据,“IDVar”“客户ID”);[bi1, cg1] = bininfo (sc,'resstatus''统计数据',{“赔率”“悲伤”“InfoValue”});disp (bi1)
Bin Good Bad Odds WOE InfoValue ______________ _____________ _________ __________ {'Home Owner'} 365 177 2.0621 0.019329 0.0001682 {'Tenant'} 204 112 1.8214 -0.1048 0.0029415 {'Other'} 131 53 2.4717 0.20049 0.0059418 {'Subletter'} 103 55 1.8727 -0.077023 0.00079103 {' total '} 803 397 2.0227 NaN 0.0098426
disp (cg1)
类别BinNumber  ______________ _________ {' 房主'}1{“租户”}2{‘其他’}3{“转租”}4

使用带有分类预测器的分割算法

将排序应用到'resstatus'类别使用默认排序“赔率”并指定'分裂'算法。

sc = autobinning (sc,'resstatus'“算法”“分裂”'algorithmOptions'...{“测量”“基尼”“SortCategories”“几率”“宽容”1的军医});[bi2, cg2] = bininfo (sc,'resstatus''统计数据',{“赔率”“悲伤”“InfoValue”});disp (bi2)
Bin Good Bad Odds WOE InfoValue __________ _______ ______ _________ _________ {'Group1'} 307 167 1.8383 -0.095564 0.0036638 {'Group2'} 365 177 2.0621 0.019329 0.0001682 {'Group3'} 131 53 2.4717 0.20049 0.0059418 {' total '} 803 397 2.0227 NaN 0.0097738
disp (cg2)
类别BinNumber  ______________ _________ {' 租户的}{“转租”}1{‘业主’}2{‘其他’}3

使用拆分算法用数字预测

为了演示数字预测器“T”的分裂mAtAddress”,第一次使用autobinning使用默认“单调”算法。

sc = autobinning (sc,“TmAtAddress”);bi3 = bininfo (sc,“TmAtAddress”'统计数据',{“赔率”“悲伤”“InfoValue”});disp (bi3)
宾好差赔率WOE INFOVALUE _____________ ____ ___ ______ _________ __________ { '[-Inf,23)'} 239 129 1.8527 -0.087767 0.0023963 { '[23,83)'} 480 232 2.069 0.02263 0.00030269 { '[83,天道酬勤]'} 84 36 2.3333 0.14288 0.00199 { '总计'} 803 397 2.0227的NaN 0.004689

然后使用autobinning'分裂'算法。

sc = autobinning (sc,“TmAtAddress”“算法”'分裂');闭= bininfo (sc,“TmAtAddress”'统计数据',{“赔率”“悲伤”“InfoValue”});disp(闭)
本好不好悲哀InfoValue几率  ____________ ____ ___ _______ _________ __________ {'[- 正无穷,4)“20 12 1.6667 -0.19359 0.0010299{}(4、5)}4 7 0.57143 -1.264 0.015991{”(23)}215 110 1.9545 -0.034261 0.00031973{[23日,33)}130年39 3.3333 0.49955 0.0318{”(33岁,正)}434 229 1.8952 -0.065096 0.0023664{“总数”}803 397 2.0227 0.051507南

加载CreditCardData.mat数据集。这个示例演示如何使用“合并”算法与分类和数字预测。

加载CreditCardData.mat

使用带有分类预测器的合并算法

要合并分类预测仪,请创建一个creditscorecard使用默认排序“赔率”然后使用bininfo在绝对预测器上'resstatus'

sc = creditscorecard(数据,“IDVar”“客户ID”);[bi1, cg1] = bininfo (sc,'resstatus''统计数据',{“赔率”“悲伤”“InfoValue”});disp (bi1);
Bin Good Bad Odds WOE InfoValue ______________ _____________ _________ _________ {'Home Owner'} 365 177 2.0621 0.019329 0.0001682 {'Tenant'} 307 167 1.8383 -0.095564 0.0036638 {'Other'} 131 53 2.4717 0.20049 0.0059418 {' total '} 803 397 2.0227 NaN 0.0097738
disp (cg1);
类别BinNumber  ______________ _________ {' 房主'}1{“租户”}2{‘其他’}3

使用autobinning并指定“合并”算法。

sc = autobinning (sc,'resstatus'“算法”“合并”);[bi2, cg2] = bininfo (sc,'resstatus''统计数据',{“赔率”“悲伤”“InfoValue”});disp (bi2)
Bin Good Bad Odds WOE InfoValue __________ _______ ______ _________ _________ {'Group1'} 672 344 1.9535 -0.034802 0.0010314 {'Group2'} 131 53 2.4717 0.20049 0.0059418 {' total '} 803 397 2.0227 NaN 0.0069732
disp (cg2)
类别BinNumber  ______________ _________ {' 租户的}{‘业主’}1{‘其他’}2

使用带有数值预测器的合并算法

演示数字预测器T的合并mAtAddress”,第一次使用autobinning使用默认“单调”算法。

sc = autobinning (sc,“TmAtAddress”);bi3 = bininfo (sc,“TmAtAddress”'统计数据',{“赔率”“悲伤”“InfoValue”});disp (bi3)
宾好差赔率WOE INFOVALUE _____________ ____ ___ ______ _________ __________ { '[-Inf,23)'} 239 129 1.8527 -0.087767 0.0023963 { '[23,83)'} 480 232 2.069 0.02263 0.00030269 { '[83,天道酬勤]'} 84 36 2.3333 0.14288 0.00199 { '总计'} 803 397 2.0227的NaN 0.004689

然后使用autobinning“合并”算法。

sc = autobinning (sc,“TmAtAddress”“算法”“合并”);闭= bininfo (sc,“TmAtAddress”'统计数据',{“赔率”“悲伤”“InfoValue”});disp(闭)
宾好差赔率WOE INFOVALUE _____________ ____ ___ _______ _________ __________ { '[-Inf,28)'} 303 152 1.9934 -0.014566 8.0646e-05 { '[28,30)'} 2 27 13.5 1.8983 0.054264 {'[30,98)”} 428 216 1.9815 -0.020574 0.00022794 { '[98106)'} 11 13 0.84615 -0.87147 0.016599 { '[106,天道酬勤]'} 34 14 2.4286 0.18288 0.0012942 { '总计'} 803 397 2.0227的NaN 0.072466

输入参数

全部折叠

信用记分卡模型,指定为creditscorecard对象。使用creditscorecard创建一个creditscorecard对象。

自动存储预测器或预测器名称,指定为包含预测器或预测器名称的字符向量或字符向量单元数组。PredictorNames是大小写敏感的,当没有PredictorNames的定义,PredictorVars财产的creditscorecard对象是分档。

数据类型:字符|细胞

名称-值对的观点

指定可选的逗号分离对名称,价值参数。的名字是参数名称和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家

例子:sc = autobinning (sc、“算法”、“EqualFrequency”)

算法选择,指定为逗号分隔对组成“算法”和字符向量指示哪个算法来使用。相同的算法被用于所有预测PredictorNames.可能的值是:

  • “单调”-(默认)单调邻接池算法(MAPA),也称为最大似然单调粗分类器(MLMCC)。监督优化分类算法的目标是找到具有单调证据权重(WOE)趋势的分类箱。该算法假设只有相邻属性可以分组。因此,对于分类预测器,类别在应用算法之前被排序(见“SortCategories”选择AlgorithmOptions).有关更多信息,请参见单调

  • '分裂'-监督分类算法,其中一个措施是用来分割数据到箱子。支持的措施金宝app'分裂'基尼Chi2.infovalue,.由此产生的分裂必须使信息函数的增益最大化。有关这些措施的更多信息,请参阅AlgorithmOptions分裂

  • “合并”-有监督的自动分类算法,其中一个度量是用来合并桶到桶。支持的措施金宝app“合并”Chi2.基尼infovalue,.根据所选的测量,所产生的合并必须使得任何一对相邻箱彼此统计不同。有关这些措施的更多信息,请参阅AlgorithmOptions合并

  • “EqualFrequency”- 无监督算法将数据划分为包含大约相同数量观测数量的预定数量的箱子。该算法也称为“相等的高度”或“相等深度”。对于分类预测器,类别在应用算法之前对(见“SortCategories”选择AlgorithmOptions).有关更多信息,请参见相等的频率

  • “EqualWidth”-无监督算法,将预测变量域的值范围划分为“等宽”的预定数量的箱子。对于数值数据,宽度被测量为箱边之间的距离。对于分类数据,宽度是用一个容器内的类别数量来度量的。对于分类预测器,类别在应用算法之前对(见“SortCategories”选择AlgorithmOptions).有关更多信息,请参见平等的宽度

数据类型:字符

所选算法选项算法,指定为逗号分隔的对,由'algorithmOptions'还有单元格数组。可能的值是:

  • 为了单调算法:

    • {'initnnumbins',N}-初始数目(N)(默认为10)。“InitialNumBins”必须是整数>2.仅用于数值预测器。

    • {“趋势”,“TrendOption”}- 重OF-证据(WOE)单调趋势确定是否预计会增加或减少。价值“TrendOption”是:

      • “汽车”-(默认)自动判断WOE趋势是增加还是减少。

      • “增加”-寻找日益增长的悲哀趋势。

      • “减少”-寻找下降的趋势。

      可选输入参数的值“趋势”并不一定能反映出由此产生的痛苦曲线。的参数“趋势”告诉算法“寻找”一个增加或减少的趋势,但结果可能不是期望的趋势。例如,当数据实际上有一个增加的趋势时,算法并没有发现一个减少的趋势。有关的更多信息“趋势”选项,请参阅单调

    • {'sortcategories','sortoption'}-仅用于分类预测器。用于确定预测器类别如何排序,作为应用算法之前的预处理步骤。的值“SortOption”是:

      • “赔率”-(默认)类别是按照赔率值的递增顺序排序的,定义为“好”与“坏”观测值的比率,对于给定类别。

      • '商品'-类别是按“好”值的递增顺序排列的。

      • “坏事”-类别是按“坏”值的递增顺序排列的。

      • “总数”-类别是按观察总数的增加值排序(“好”加“坏”)。

      • “没有”—不进行排序。在应用算法之前,类别的现有顺序不变。类别的现有顺序可以在类别分组的可选输出中看到bininfo.)

      有关更多信息,请参见排序类别

  • 为了分裂算法:

    • {“InitialNumBins”,N}-指定一个确定数字的整数(N>0)预测器在分裂之前最初被放入的容器。仅对数值预测器有效。默认是50

    • {“测量”,MeasureName}- 指定的措施,其中“MeasureName”是下列情况之一:“基尼”(默认),“Chi2”“InfoValue”,或“熵”

    • {“MinBad”,N}—最小数量NN>=0.)每箱的坏人。默认值是1,以避免纯粹的垃圾箱。

    • {“MaxBad”,N}-最大数量NN>=0.)每箱的坏人。默认值是

    • {“MinGood”,N}—最小数量NN>=0.)。默认值是1,以避免纯粹的垃圾箱。

    • {“MaxGood”,N}-最大数量NN>=0.)。默认值是

    • {“MinCount”,N}—最小数量NN>=0.)的观测值。默认值是1,以避免空箱。

    • {“MaxCount”,N}-最大数量NN>=0.)的观测值。默认值是

    • {'maxnumbins',N}-最大数量NN>=2)的bins的结果拆分。默认值是5.

    • {“宽容”,托尔}- 在迭代方案期间,指定信息函数中的最小增益(> 0),以选择最大化增益的剪切点。默认为1的军医

    • {“意义”,N}-卡方统计的显著性水平阈值,高于此阈值会发生分裂。值在间隔内[0, 1].默认是0.9显著性水平(90%)。

    • {'sortcategories','sortoption'}-仅用于分类预测器。用于确定预测器类别如何排序,作为应用算法之前的预处理步骤。的值“SortOption”是:

      • '商品'-类别是按“好”值的递增顺序排列的。

      • “坏事”-类别是按“坏”值的递增顺序排列的。

      • “赔率”-(默认)类别是按照赔率值的递增顺序排序的,定义为“好”与“坏”观测值的比率,对于给定类别。

      • “总数”-类别是按观察总数的增加值排序(“好”加“坏”)。

      • “没有”—不进行排序。在应用算法之前,类别的现有顺序不变。类别的现有顺序可以在类别分组的可选输出中看到bininfo.)

      有关更多信息,请参见排序类别

  • 为了合并算法:

    • {“InitialNumBins”,N}-指定一个确定数字的整数(N>0)预测器在合并之前最初被放入的容器。仅对数值预测器有效。默认是50

    • {“测量”,MeasureName}- 指定的措施,其中“MeasureName”是下列情况之一:“Chi2”(默认),“基尼”“InfoValue”,或“熵”

    • {'minnumbins',N}—最小数量NN>=2)的bins的结果合并。默认值是2

    • {'maxnumbins',N}-最大数量NN>=2)的bins的结果合并。默认值是5.

    • {“宽容”,N}-指定信息值和熵统计值合并的最小阈值。有效值在间隔内(0.1).默认是1 e - 3

    • {“意义”,N}-卡方统计的显著性水平阈值,低于此阈值合并发生。值在间隔内[0, 1].默认是0.9显著性水平(90%)。

    • {'sortcategories','sortoption'}-仅用于分类预测器。用于确定预测器类别如何排序,作为应用算法之前的预处理步骤。的值“SortOption”是:

      • '商品'-类别是按“好”值的递增顺序排列的。

      • “坏事”-类别是按“坏”值的递增顺序排列的。

      • “赔率”-(默认)类别是按照赔率值的递增顺序排序的,定义为“好”与“坏”观测值的比率,对于给定类别。

      • “总数”-类别是按观察总数的增加值排序(“好”加“坏”)。

      • “没有”—不进行排序。在应用算法之前,类别的现有顺序不变。类别的现有顺序可以在类别分组的可选输出中看到bininfo.)

      有关更多信息,请参见排序类别

  • 为了EqualFrequency算法:

    • {“NumBins”,N}- 指定所需的数字(N)的垃圾箱。默认为{NumBins, 5}箱子的数量必须是正数。

    • {'sortcategories','sortoption'}-仅用于分类预测器。用于确定预测器类别如何排序,作为应用算法之前的预处理步骤。的值“SortOption”是:

      • “赔率”-(默认)类别是按照赔率值的递增顺序排序的,定义为“好”与“坏”观测值的比率,对于给定类别。

      • '商品'-类别是按“好”值的递增顺序排列的。

      • “坏事”-类别是按“坏”值的递增顺序排列的。

      • “总数”-类别是按观察总数的增加值排序(“好”加“坏”)。

      • “没有”—不进行排序。在应用算法之前,类别的现有顺序不变。类别的现有顺序可以在类别分组的可选输出中看到bininfo.)

      有关更多信息,请参见排序类别

  • 为了EqualWidth算法:

    • {“NumBins”,N}- 指定所需的数字(N)的垃圾箱。默认为{NumBins, 5}箱子的数量必须是正数。

    • {'sortcategories','sortoption'}-仅用于分类预测器。用于确定预测器类别如何排序,作为应用算法之前的预处理步骤。的值“SortOption”是:

      • “赔率”-(默认)类别是按照赔率值的递增顺序排序的,定义为“好”与“坏”观测值的比率,对于给定类别。

      • '商品'-类别是按“好”值的递增顺序排列的。

      • “坏事”-类别是按“坏”值的递增顺序排列的。

      • “总数”-类别是按观察总数的增加值排序(“好”加“坏”)。

      • “没有”—不进行排序。在应用算法之前,类别的现有顺序不变。类别的现有顺序可以在类别分组的可选输出中看到bininfo.)

      有关更多信息,请参见排序类别

例子:SC = autobinning(SC, 'CustAge', '算法', '单调', 'AlgorithmOptions',{ '趋势', '增加'})

数据类型:细胞

指示符,用于显示命令行上的bin进程状态信息,指定为逗号分隔的对“显示”和一个值为的字符向量'在'“关闭”

数据类型:字符

输出参数

全部折叠

信用记分卡模型,作为更新的creditscorecard对象,该对象包含一个或多个预测器的自动确定的分类映射或规则(切点或类别分组)。有关使用的更多信息creditscorecard对象,看到creditscorecard

笔记

如果你以前用过ModifierBins.函数手动修改bin,这些更改在运行时丢失autobinning因为所有数据都是基于内部自动装箱规则自动装箱的。

更多关于

全部折叠

单调

“单调”算法是单调邻接池算法(MAPA)的实现,也称为最大似然单调粗分类器(MLMCC);见安德森或托马斯参考文献

预处理

在预处理阶段,对数值预测器进行预处理,采用等频分箱,分箱数量由“InitialNumBins”参数(默认为10个箱)。分类预测因子的预处理包括根据类别对类别进行分类“SortCategories”标准(默认是按赔率递增排序)。排序不适用于顺序预测器。看到排序类别的定义或描述AlgorithmOptions选择“SortCategories”为更多的信息。

主要算法

下面的例子说明如何“单调”算法到达用于数字数据的切割点。

箱子 迭代 迭代 迭代3 Iteration4

“[无穷,33000)”

127 107 0.543

“[33000、38000)”

194 90 0.620 0.683

“[38000、42000)”

135 78 0.624 0.662

'[42000,47000)'

164 66 0.645 0.678 0.713

”(47000年,正)

183 56 0.669 0.700 0.740 0.766

最初,数值数据是用等频分箱进行预处理的。在本例中,为了简单起见,只使用了5个初始容器。第一列表示相同频率的仓范围,第二和第三列表示每个仓的“Good”和“Bad”计数。(观测的数量是1200个,所以一个完美的等频率分类将导致5个箱子,每个箱子有240个观测。在这种情况下,每个容器的观测值并不完全匹配240。当数据具有重复值时,这是一种常见情况。)

Monotone根据“良好”观测值的累积比例来寻找断点。在“迭代”列中,第一个值(0.543)是第一个箱子中“好的”观察的数量(127),除以箱子中观察的总数量(127+107)。第二个值(0.620)是箱1和箱2中“良好”观测值的数量,除以箱1和箱2中观测值的总数。等等。第一个切点设置在这个累积比率的最小值处,即本例中的第一个容器中。这是迭代1的结束。

从第二个箱子(上一个迭代中最小值位置之后的第一个箱子)开始,“Good”观测值的累积比例再次计算。第二个切割点设置在这个累积比率的最小值处。在本例中,它恰好在3号箱中,因此2号箱和3号箱被合并了。

算法以同样的方式再进行两次迭代。在这个例子中,最后它只合并了2和3。最终的仓有四个仓,切割点分别为33,000、42,000和47,000。

对于分类数据,唯一的区别是预处理步骤包括重新排序类别。考虑以下分类数据:

箱子 几率

“房主”

365 177 2.062

“租户”

307 167 1.838

“其他”

131 53 2.474

默认情况下,预处理步骤对类别进行排序“赔率”.(见排序类别的定义或描述AlgorithmOptions选择“SortCategories”为更多的信息。)然后,应用上述相同的步骤,如下表所示:

箱子 几率 迭代 迭代 迭代3
“租户” 307 167 1.838 0.648
“房主” 365 177 2.062 0.661 0.673
“其他” 131 53 2.472 0.669 0.683 0.712

在这种情况下,Monotone算法不会合并任何类别。与应用该算法之前的数据相比,唯一的区别是类别现在是按顺序排序的“赔率”

在上面的数字和分类示例中,隐含的“趋势”的选择是“增加”.(见AlgorithmOptions选择“单调”“趋势”选项。)如果设置了趋势“减少”中,算法查找最大(而不是最小值)的累积比,以确定切割点。在这种情况下,在迭代1,最大将是最后一个块,这将意味着,所有的垃圾桶应合并成一个垃圾桶。像素合并成一个单一的仓是信息的总损失并没有实际用途。因此,当选择的趋势导致一个纸槽,单调执行拒绝它,并且算法返回仓前处理工序后发现。该状态是对数值数据和排序的类别分类数据的初始等于频率分箱。默认情况下,单调算法的实现采用启发式识别趋势(“汽车”选择“趋势”).

分裂

分裂是一种有监督的自动分类算法,其中使用度量将数据分成多个桶。支持的措金宝app施有基尼Chi2.infovalue,

在内部,分割算法如下进行:

  1. 所有类别合并为一个垃圾桶。

  2. 在第一次迭代时,测试所有可能的割点指标,以确定哪个指标导致信息函数(基尼infovale.,或Chi2.).然后选择该切割点,并对容器进行分割。

  3. 对下一个子垃圾箱重复了相同的程序。

  4. 当达到最大桶数时,或者当拆分没有导致信息更改函数的任何额外变化时,算法停止。

下表是一个分类预测器,它总结了每次迭代中变更函数的值。在这个例子中,“基尼”是选择的度量,这样的目标是在每个迭代中看到基尼度量的减少。

迭代0箱数 成员 基尼 迭代1 成员 基尼 迭代2 成员 基尼

1

“租户” 1 “租户” 1 “租户” 0.45638

1

'Subletter' 1 'Subletter' 0.44789 1 'Subletter'

1

“房主” 1 “房主” 2 “房主” 0.43984

1

“其他” 2 “其他” 0.41015 3. “其他” 0.41015

总基尼

0.442765 0.442102 0.441822
相对变化 0. 0.001498 0.002128

迭代的相对变化一世与迭代时整个箱子的基尼系数有关吗一世-1.最后的结果与最后一次迭代的结果相对应,在本例中,最后一次迭代是迭代2。

下表是一个数值预测器,它总结了每次迭代中变更函数的值。在这个例子中,“基尼”是选择的度量,这样的目标是在每个迭代中看到基尼度量的减少。由于数据集中的大多数数字预测器包含许多bins,因此有一个预处理步骤,将数据预分成50个等频次bins。这使得有效切割点池更小,更易于管理。

迭代0箱数 成员 基尼 迭代1 基尼 迭代2 基尼 迭代3箱号码 基尼

1

'21' “(负无穷,47岁)” 0.473897 “(负无穷,47岁)” 0.473897 “(负无穷,35)” 0.494941

1

'22' “[47岁,正]” 0.385238. “[61]” 0.407072 “[35岁,47]” 0.463201

1

'23' ”(61年,正) 0.208795 “[61]” 0.407072

1

“74” 0. ”(61年,正) 0.208795

总基尼

0.442765 0.435035 0.432048 0.430511
相对变化 0. 0.01746 0.006867 0.0356

由此产生的分割必须使信息功能(内容)增加。因此,最佳分割是导致最大信息增益的分割。支持的信息功能有:金宝app

  • 基尼系数:每次分割都会导致基尼系数增加,其定义为:

    G_r = 1- G_hat/G_p

    G_p是父节点的基尼系数,也就是在分割之前给定的bins/categories的基尼系数。G_hat为当前分割的加权基尼系数:

    G_hat = Sum((nj/N) * Gini(j), j=1..m)

    在哪里

    新泽西观察的总数是多少j本。

    N为数据集中观测的总数。

    m是给定变量的分割次数。

    基尼(j)是基尼措施的j本。

    分割/节点的基尼系数j是:

    Gini(j) = 1 - (Gj²+Bj²)/ (nj)²
    在哪里GJ.BJ.=垃圾箱的商品和坏人数量j

  • infovale.:每次分割的信息值会导致总信息的增加。在可接受的增益公差范围内,保留的分裂是导致最大增益的分裂。给定观测的信息价值(IV)j被定义为:

    IV = sum((pG_i-pB_i) * log(pG_i/pB_i), i=1..n)
    在哪里

    PG_I.是在观察中分配货物一世,这是(我)/ Total_Goods商品

    pB_i坏的分布在观察一世,这是坏事(我)/ Total_Bads

    N是箱子的总数。

  • :每一次分裂都会导致熵方差的减少,定义如下:

    n = -sum(ni * Ei, i=1..n)

    在哪里

    垃圾箱的总数是一世,这是(ni = Gi + Bi)

    ei.为行(或箱)的熵一世,定义为:

    Ei =总和(Gi值(Gi / ni) + Bi * log2 (Bi / ni)) / N, i = 1 . . N
  • Chi2.:CHI2对每对箱进行成对计算,并测量两组之间的统计差异。在最大CHI2值为的点(切割点或类别索引)处选择分割,其中

    Chi2 =总和(和((Aij - Eij) ^ 2 / Eij, j k = 1 . .), i = m m + 1)

    在哪里

    m将值从1……n - 1,在那里N是垃圾箱的数量。

    K.是课程的数量。这里k = 2对于(货物,坏)。

    aij.是垃圾箱中的观察数一世j类。

    Eij.预期的频率是多少aij.,等于(Ri * Cj) / N

    国际扶轮是垃圾箱中的观察数一世,等于总和(Aij j k = 1 . .)

    CJ.观察的次数是多少j这个类,它等于sum(aij,i = m,m + 1)

    N观察的总数,等于多少总和的(C,J = 1..k)

Chi2.测量整个样本(相对于两两Chi2.相邻容器的度量)为:

Chi2 =总和(和((Aij - Eij) ^ 2 / Eij, j k = 1 . .), i = 1 . . n)

合并

合并是一种有监督的自动分类算法,其中一个度量用来将容器合并到桶中。支持的措金宝app施有Chi2.基尼infovalue,

在内部,合并算法进行如下:

  1. 所有类别最初都在不同的分类箱内。

  2. 用户选择的信息功能(Chi2.基尼infovale.)为任意一对相邻的容器计算。

  3. 在每次迭代中,将所选信息函数测量的信息变化最小的对进行合并。

  4. 合并将继续进行,直到:

    1. 所有成对信息值大于由显着级别或相对变化小于公差的阈值。

    2. 如果到最后,箱子的数量仍然大于MaxNumBins允许,合并是强制的,直到有最多MaxNumBins箱里。类似地,当只有时合并停止MinNumBins箱里。

  5. 对于分类,原始的箱子/类别是根据用户设置的选择排序。对于数值数据,数据是经过预处理得到的IntialNumBins在合并算法开始之前,有相同频率的Bins。

下表是一个分类预测器,它总结了每次迭代中变更函数的值。在这个例子中,“Chi2”是首选措施。默认通过排序几率作为预处理步骤应用。这Chi2.在下面的行报告值一世是垃圾箱一世一世+ 1。显著性水平为0.9(90%),使之相反Chi2.值是2.705543.这是相邻的桶对被合并的阈值。容器的最小数量是2个。

迭代0箱数 成员 Chi2. 迭代1 成员 Chi2. 迭代2 成员 Chi2.

1

“租户” 1.007613 1 “租户” 0.795920 1 “租户”

2

'Subletter' 0.257347 2 'Subletter' 1 'Subletter'

3.

“房主” 1.566330 2 “房主” 1.522914 1 “房主” 1.797395

4.

“其他” 3. “其他” 2 “其他”

总Chi2

2.573943 2.317717 1.797395

下表是一个数值预测器,它总结了每次迭代中变更函数的值。在这个例子中,“Chi2”是首选措施。

迭代0箱数 Chi2. 迭代1箱 Chi2. 最终迭代垃圾箱 Chi2.
“(负无穷,22)” 0.11814 “(负无穷,22)” 0.11814 “(负无穷,33)” 8.4876
“(22、23)” 1.6464 “(22、23)” 1.6464 ”33岁的[48] 7.9369

...

... “[64]” 9.956
“[58 59]” 0.311578 “[58 59]” 0.27489 “(64、65)” 9.6988
'[59,60]' 0.068978 “(59,61)” 1.8403 '[65,inf]'
“[61]” 1.8709 “(61、62)” 5.7946 ...
“(61、62)” 5.7946 ...
... “(69、70)” 6.4271
“(69、70)” 6.4271 '[70,天道酬勤]'
'[70,天道酬勤]'

总Chi2

67.467 67.399 23.198

根据所选的测量,所产生的合并必须使得任何一对相邻箱彼此统计不同。支持措施金宝app合并是:

  • Chi2.:CHI2对每对箱进行成对计算,并测量两组之间的统计差异。合并在一个点(割点或类别的索引),其中最大χ2值是被选择:

    Chi2 =总和(和((Aij - Eij) ^ 2 / Eij, j k = 1 . .), i = m m + 1)

    在哪里

    m将值从1……n - 1,N是垃圾箱的数量。

    K.是课程的数量。这里k = 2对于(货物,坏)。

    aij.是垃圾箱中的观察数一世j类。

    Eij.预期的频率是多少aij.,等于(Ri * Cj) / N

    国际扶轮是垃圾箱中的观察数一世,等于总和(Aij j k = 1 . .)

    CJ.观察的次数是多少j这个类,它等于sum(aij,i = m,m + 1)

    N观察的总数,等于多少总和的(C,J = 1..k)

    Chi2.测量整个样本(相对于两两Chi2.相邻容器的度量)为:

    Chi2 =总和(和((Aij - Eij) ^ 2 / Eij, j k = 1 . .), i = 1 . . n)

  • 基尼系数:每次合并都会导致基尼系数降低,其定义为:

    G_r = 1- G_hat/G_p

    G_p是父节点的Gini度量,即在合并之前给定的bins/categories的Gini度量。G_hat为当前合并的加权基尼系数:

    G_hat = Sum((nj/N) * Gini(j), j=1..m)

    在哪里

    新泽西观察的总数是多少j本。

    N为数据集中观测的总数。

    m是给定变量的归并次数。

    基尼(j)是基尼措施的j本。

    基尼度量合并/节点j是:

    Gini(j) = 1 - (Gj²+Bj²)/ (nj)²
    在哪里GJ.BJ.=垃圾箱的商品和坏人数量j

  • infovale.:对于每个合并的信息值将导致在总的信息的降低。被保持的合并是一个其导致最小增益,所述增益可接受的公差范围内。给定观测的信息价值(IV)j被定义为:

    IV = sum((pG_i-pB_i) * log(pG_i/pB_i), i=1..n)
    在哪里

    PG_I.是在观察中分配货物一世,这是(我)/ Total_Goods商品

    pB_i坏的分布在观察一世,这是坏事(我)/ Total_Bads

    N是箱子的总数。

  • :每次合并导致熵方差增加,定义为:

    n = -sum(ni * Ei, i=1..n)

    在哪里

    垃圾箱的总数是一世,这是(ni = Gi + Bi)

    ei.为行(或箱)的熵一世,定义为:

    Ei =总和(Gi值(Gi / ni) + Bi * log2 (Bi / ni)) / N, i = 1 . . N

笔记

使用合并算法时,如果有纯箱(零计数的箱子货物或零计数坏事),信息值和熵等统计值是非有限值。为了解释这一点,频率的偏移.5.用于计算算法发现纯箱时的各种统计量。

相等的频率

无监督算法,将数据分成预定数量的箱子,其中包含大约相同数量的观察。

EqualFrequency被定义为:

让v[1],[2],…那v[N] be the sorted list of different values or categories observed in the data. Let f[一世是v的频率[一世].让F [K.] = F [1] + ... + F [K.]是累计频率的累积总和K.分类值。然后f [N与观测的总数相同。

定义AvgFreq= F (N) /NumBins,这是装箱后每个装箱的理想平均频率。这N切点指数为指数K.使距离abs(F[K.]-N*AvgFreq)是最小化。

该规则尝试匹配累积频率直到N本。如果单个值包含太多的观察值,则不可能有相同频率的bins,并且上面的规则产生小于NumBins总箱。在这种情况下,由算法决定NumBins按照箱子的顺序破坏垃圾箱。

分类预测因子的预处理包括根据类别对类别进行分类“SortCategories”标准(默认是按赔率递增排序)。排序不适用于顺序预测器。看到排序类别的定义或描述AlgorithmOptions选择“SortCategories”为更多的信息。

平等的宽度

无监督算法将预测器变量的域中的值范围划分为“等宽”的预定数量的垃圾箱。对于数值数据,宽度被测量为箱边之间的距离。对于分类数据,宽度是用一个容器内的类别数量来度量的。

EqualWidth选项被定义为:

对于数字数据,如果MinValueMaxValue那么,最小值和最大值是多少

宽度=(maxvalue  -  minvalue)/ numbins
割点MinValue+宽度,MinValue+ 2 *宽度,...MaxValue——宽度。如果一个MinValueMaxValue尚未使用该尚未指定ModifierBins.函数,EqualWidth选择集MinValueMaxValue到数据中观测到的最小值和最大值。

对于分类数据,如果有NumCats然后是原始类别的数量

Width = NumCats / NumBins,
并设置切点指数为Width, 2*Width,…NumCats-宽度,加1。

分类预测因子的预处理包括根据类别对类别进行分类“SortCategories”标准(默认是按赔率递增排序)。排序不适用于顺序预测器。看到排序类别的定义或描述AlgorithmOptions选择“SortCategories”为更多的信息。

排序类别

作为分类数据的预处理步骤,“单调”“EqualFrequency”,“EqualWidth”金宝app支持“SortCategories”输入。这样做的目的是在应用主算法之前对类别重新排序。默认的排序标准是按排序“赔率”.例如,假设数据最初看起来是这样的:

箱子 几率
“房主” 365 177 2.062
“租户” 307 167 1.838
“其他” 131 53 2.472

预处理步骤之后,行会被进行排序“赔率”表格是这样的:

箱子 几率
“租户” 307 167 1.838
“房主” 365 177 2.062
“其他” 131 53 2.472

这三种算法只合并相邻的箱子,所以分类的初始顺序会对最终的箱子产生影响。这“没有”选择“SortCategories”将保持原始表不变。有关所支持的排序条件的描述,请参阅金宝appAlgorithmOptions选择“SortCategories”

在构造记分卡时,在应用任何算法或任何分类修改之前,类别的初始顺序是在的第一个输出中显示的顺序bininfo.如果箱子已经被修改(手动使用ModifierBins.或自动autobinning),使用可选的输出(CG.“类别分组”)bininfo以获取类别的当前顺序。

“SortCategories”选项对分类预测器没有影响“顺序”参数设置为true(请参阅“顺序”MATLAB中的输入参数®对于分类数组分类.序数数据具有自然顺序,通过留下类别不变的类别来授予算法的预处理步骤。只有分类预测因子“顺序”参数为false(默认选项)根据根据类别的重新排序而定“SortCategories”标准。

使用autobinning重量

当观测权值使用可选定义时掌权参数时的creditscorecard对象,而不是计算每个容器中好的或坏的行autobinning函数累积每个垃圾箱中的行的重量或差。

报告的“频率”不再是行的基本“计数”,而是行的“累积权重”,这些行是好是坏,并落在特定的容器中。一旦这些“加权频率”已知,所有其他相关统计(几率w,infovale.)是用通常的公式计算的。有关更多信息,请参见利用观测权建立信用记分卡模型

参考文献

[1]安德森,R。信用评分工具包。牛津大学出版社,2007。

[2]科伯,R。《ChiMerge:数值属性的离散化》aaai - 92程序。1992.

刘洪,等。数据挖掘、知识和发现。6卷。问题4。2002年10月,393-423页。

[4] Refaat, M。数据准备数据挖掘使用SAS。摩根Kaufmann,2006。

[5] Refaat, M。信用风险记分卡:使用SAS开发和实施。lulu.com, 2011。

Thomas, L.等。信用评分及其应用。2002年工业与应用数学协会。

介绍了R2014b