主要内容

autobinning

执行自动装箱的预测因子

描述

例子

sc= autobinning (sc)执行自动装箱的预测因子。

自动装箱发现装箱地图或规定,本数值数据和组类别的分类数据。装箱规则存储在creditscorecard对象。装箱规则应用到creditscorecard对象数据,或者一个新的数据集,使用bindata

例子

sc= autobinning (sc,PredictorNames)执行自动装箱中给出的预测因子PredictorNames

自动装箱发现装箱地图或规定,本数值数据和组类别的分类数据。装箱规则存储在creditscorecard对象。装箱规则应用到creditscorecard对象数据,或者一个新的数据集,使用bindata

例子

sc= autobinning (___,名称,值)执行自动装箱中给出的预测因子PredictorNames使用可选的参数名称-值对。看到名称-值参数算法为支持的装箱算法的描述。金宝app

自动装箱发现装箱地图或规定,本数值数据和组类别的分类数据。装箱规则存储在creditscorecard对象。装箱规则应用到creditscorecard对象数据,或者一个新的数据集,使用bindata

例子

全部折叠

创建一个creditscorecard对象使用CreditCardData.mat文件加载数据(使用数据集从Refaat 2011)。

负载CreditCardDatasc = creditscorecard(数据,“IDVar”,“CustID”);

使用默认选项执行自动装箱。默认情况下,autobinning箱子所有预测和使用单调算法。

sc = autobinning (sc);

使用bininfo显示分箱数据预测CustAge

bi = bininfo (sc,“CustAge”)
bi =8×6表本好与坏的几率,悲哀InfoValue _________________出生______替{[无穷,33)}70年53 1.3208 -0.42622 0.019746{[33岁,37)}64年47 1.3617 -0.39568 0.015308{[37、40)}73年47 1.5532 -0.26411 0.0072573{'[40岁,46)}174 94 1.8511 -0.088658 0.001781{[46岁,48)}61年25 2.44 0.18758 0.0024372{[48,58)的}263 105 2.5048 0.21378 0.013476{的[58岁的Inf]} 98年26 3.7692 0.62245 0.0352{“总数”}803 397 0.095205 2.0227南

使用plotbins显示柱状图和悲哀曲线预测CustAge

plotbins (sc,“CustAge”)

图包含一个坐标轴对象。坐标轴对象标题CustAge ylabel悲哀包含3对象类型的酒吧,线。这些对象是好的,坏的。

创建一个creditscorecard对象使用CreditCardData.mat文件加载数据(使用一个数据集从Refaat 2011)。

负载CreditCardDatasc = creditscorecard(数据);

为预测执行自动装箱CustIncome使用默认选项。默认情况下,autobinning使用单调算法。

sc = autobinning (sc,“CustIncome”);

使用bininfo显示分箱数据。

bi = bininfo (sc,“CustIncome”)
bi =8×6表本好与坏的几率,悲哀InfoValue _________________出生_____ _____{[无穷,29000)的}53 58 0.91379 -0.79457 0.06364{[29000、33000)}74年49 1.5102 -0.29217 0.0091366{[33000、35000)的36}68 1.8889 -0.06843 0.00041042{[35000、40000)的}193 98 1.9694 -0.026696 0.00017359{[40000、42000)的}68 34 2 -0.011271 - 1.0819 e-05{[42000、47000)的}164 66 2.4848 0.20579 0.0078175{”(47000年,正)}183年56 3.2679 0.47972 0.041657{“总数”}803 397 0.12285 2.0227南

创建一个creditscorecard对象使用CreditCardData.mat文件加载数据(使用一个数据集从Refaat 2011)。

负载CreditCardDatasc = creditscorecard(数据);

为预测执行自动装箱CustIncome使用单调算法与容器的初始数量设置为20。这个例子中显式地设置的算法AlgorithmOptions名称-值参数。

AlgoOptions = {“InitialNumBins”,20};sc = autobinning (sc,“CustIncome”,“算法”,“单调”,“AlgorithmOptions”,AlgoOptions);

使用bininfo显示分箱数据。这里,减少点,划垃圾箱,也显示出来。

(bi, cp) = bininfo (sc,“CustIncome”)
bi =11×6表本好的坏的几率悲哀InfoValue _________________出生_____ _____{[无穷,19000)的}2 3 0.66667 -1.1099 0.0056227{[19000、29000)的}51 55 0.92727 -0.77993 0.058516{[29000、31000)的}29日26日1.1154 -0.59522 0.017486{42(31000、34000)}80 1.9048 -0.060061 0.0003704{[34000、35000)的}33 17 1.9412 -0.041124 7.095 e-05{[35000、40000)的}193 98 1.9694 -0.026696 0.00017359{[40000、42000)的}68 34 2 -0.011271 - 1.0819 e-05{[42000、43000)的}39 16 2.4375 0.18655 0.001542{[43000、47000)}125年50 2.5 0.21187 0.0062972{”(47000年,正)}183年56 3.2679 0.47972 0.041657{“总数”}803 397 0.13175 2.0227南
cp =9×119000 29000 31000 34000 35000 40000 42000 43000 47000

这个例子展示了如何使用autobinning默认的单调算法和AlgorithmOptions名称-值对参数相关单调算法。的AlgorithmOptions单调算法有三个名称-值对参数:“InitialNumBins”,“趋势”,“SortCategories”“InitialNumBins”“趋势”适用于数字预测和“趋势”“SortCategories”适用于分类预测。

创建一个creditscorecard对象使用CreditCardData.mat文件加载数据(使用数据集从Refaat 2011)。

负载CreditCardDatasc = creditscorecard(数据,“IDVar”,“CustID”);

执行自动装箱的数值预测CustIncome使用单调算法有20箱。这个例子中显式地设置的算法参数和AlgorithmOptions名称-值参数“InitialNumBins”“趋势”

AlgoOptions = {“InitialNumBins”,20岁,“趋势”,“增加”};sc = autobinning (sc,“CustIncome”,“算法”,“单调”,“AlgorithmOptions”,AlgoOptions);

使用bininfo显示分箱数据。

bi = bininfo (sc,“CustIncome”)
bi =11×6表本好的坏的几率悲哀InfoValue _________________出生_____ _____{[无穷,19000)的}2 3 0.66667 -1.1099 0.0056227{[19000、29000)的}51 55 0.92727 -0.77993 0.058516{[29000、31000)的}29日26日1.1154 -0.59522 0.017486{42(31000、34000)}80 1.9048 -0.060061 0.0003704{[34000、35000)的}33 17 1.9412 -0.041124 7.095 e-05{[35000、40000)的}193 98 1.9694 -0.026696 0.00017359{[40000、42000)的}68 34 2 -0.011271 - 1.0819 e-05{[42000、43000)的}39 16 2.4375 0.18655 0.001542{[43000、47000)}125年50 2.5 0.21187 0.0062972{”(47000年,正)}183年56 3.2679 0.47972 0.041657{“总数”}803 397 0.13175 2.0227南

创建一个creditscorecard对象使用CreditCardData.mat文件加载数据(使用一个数据集从Refaat 2011)。

负载CreditCardDatasc = creditscorecard(数据,“IDVar”,“CustID”);

为预测执行自动装箱CustIncomeCustAge使用默认单调算法与AlgorithmOptionsInitialNumBins趋势

AlgoOptions = {“InitialNumBins”,20岁,“趋势”,“增加”};sc = autobinning (sc, {“CustAge”,“CustIncome”},“算法”,“单调”,“AlgorithmOptions”,AlgoOptions);

使用bininfo显示分箱数据。

bi1 = bininfo (sc,“CustIncome”)
bi1 =11×6表本好的坏的几率悲哀InfoValue _________________出生_____ _____{[无穷,19000)的}2 3 0.66667 -1.1099 0.0056227{[19000、29000)的}51 55 0.92727 -0.77993 0.058516{[29000、31000)的}29日26日1.1154 -0.59522 0.017486{42(31000、34000)}80 1.9048 -0.060061 0.0003704{[34000、35000)的}33 17 1.9412 -0.041124 7.095 e-05{[35000、40000)的}193 98 1.9694 -0.026696 0.00017359{[40000、42000)的}68 34 2 -0.011271 - 1.0819 e-05{[42000、43000)的}39 16 2.4375 0.18655 0.001542{[43000、47000)}125年50 2.5 0.21187 0.0062972{”(47000年,正)}183年56 3.2679 0.47972 0.041657{“总数”}803 397 0.13175 2.0227南
bi2 = bininfo (sc,“CustAge”)
bi2 =8×6表本好的坏的几率悲哀InfoValue _________________出生______ _____ __________{[无穷,35岁)的}93 76 1.2237 -0.50255 0.038003{[35 40)的}114 71 1.6056 -0.2309 0.0085141{[40,42岁)的}52 30 1.7333 -0.15437 0.0016687{[42、44)的}58 32 1.8125 -0.10971 0.00091888{[44岁,47)}97年51 1.902 -0.061533 0.00047174{'[62)}333 130 2.5615 0.23619 0.020605{”(62年,正)}56 7 8 1.375 - 0.071647{“总数”}803 397 0.14183 2.0227南

创建一个creditscorecard对象使用CreditCardData.mat文件加载数据(使用一个数据集从Refaat 2011)。

负载CreditCardDatasc = creditscorecard(数据);

执行自动装箱分类预测的预测ResStatus使用默认选项。默认情况下,autobinning使用单调算法。

sc = autobinning (sc,“ResStatus”);

使用bininfo显示分箱数据。

bi = bininfo (sc,“ResStatus”)
bi =4×6表本好与坏的几率,悲哀出生______替InfoValue * * *{“租户”}307 167 1.8383 -0.095564 0.0036638{‘业主’}365 177 2.0621 0.019329 0.0001682{‘其他’}131年53 2.4717 0.20049 0.0059418{“总数”}803 397 0.0097738 2.0227南

这个例子展示了如何修改数据(仅对于这个例子)来说明装箱分类预测使用单调算法。

创建一个creditscorecard对象使用CreditCardData.mat文件加载数据(使用一个数据集从Refaat 2011)。

负载CreditCardData

添加两个新类别和更新响应变量。

newdata =数据;rng (“默认”);%的再现性预测=“ResStatus”;状态= newdata.status;NumObs =长度(newdata(预测));Ind1 =兰迪(100年NumObs, 1);Ind2 =兰迪(100年NumObs, 1);newdata。(Ind1) =(预测)“转租人”;newdata。(Ind2) =(预测)“共同所有人”;状态(Ind1) =兰迪(2100 1)1;状态(Ind2) =兰迪(2100 1)1;newdata。状态=状态;

更新creditscorecard对象使用newdata和情节的箱子后面的比较。

scnew = creditscorecard (newdata,“IDVar”,“CustID”);(bi, cg) = bininfo (scnew预测)
bi =6×6表出生本好的坏的几率悲哀InfoValue * * *{‘业主’}______月______ ____ 308 154 2 0.092373 - 0.0032392{“租户”}264 136 1.9412 0.06252 0.0012907{‘其他’}109年49 2.2245 0.19875 0.0050386{转租人的}42 42 1 -0.60077 - 0.026813{“共同所有人”}52 44 1.1818 -0.43372 0.015802{“总数”}775 425 0.052183 1.8235南
cg =5×2表_____类别BinNumber * * *{‘业主’}1{“租户”}2{‘其他’}3{转租人的}4{“共同所有人”}5
plotbins (scnew预测)

图包含一个坐标轴对象。坐标轴对象标题ResStatus ylabel悲哀包含3对象类型的酒吧,线。这些对象是好的,坏的。

执行自动分类装箱预测使用默认单调算法的AlgorithmOptions名称-值对的理由“SortCategories”“趋势”

AlgoOptions = {“SortCategories”,“货物”,“趋势”,“增加”};scnew = autobinning (scnew预测,“算法”,“单调”,“AlgorithmOptions”,AlgoOptions);

使用bininfo显示本信息。第二个输出参数“重心”抓住了本会员,这是本,每组属于数量。

(bi, cg) = bininfo (scnew预测)
bi =4×6表本好的坏的几率有祸了______月______ InfoValue __________出生_____ {Group1的}42 42 1 -0.60077 - 0.026813{的Group2} 52 44 1.1818 -0.43372 0.015802 {‘Group3} 681 339 2.0088 0.096788 0.0078459{“总数”}775 425 0.05046 1.8235南
cg =5×2表_____类别BinNumber * * *{转租人的}1{“共同所有人”}2{‘其他’}3{“租户”}{‘业主’}3

垃圾箱和比较直方图pre-binning策划的阴谋。

plotbins (scnew预测)

图包含一个坐标轴对象。坐标轴对象标题ResStatus ylabel悲哀包含3对象类型的酒吧,线。这些对象是好的,坏的。

创建一个creditscorecard对象使用CreditCardData.mat文件加载dataMissing用缺失值。

负载CreditCardData.mat头(dataMissing, 5)
CustID CustAge TmAtAddress ResStatus EmpStatus CustIncome TmWBank OtherCC AMBalance UtilRate ____ ____地位………………_____ _____ _____ ________ ________ 53 62 <定义>未知50000 55是的1055.9 - 0.22 0 2 61 22业主雇佣52000 25是的1161.6 - 0.24 0 3 47 30租户使用37000 61没有877.23 - 0.29 0 4南75业主雇佣了53000 20是的157.37 - 0.08 0 5 68 56家老板雇用了53000名14是的561.84 - 0.11 0
流(“行数:% d \ n”、高度(dataMissing))
的行数:1200
流(“CustAge缺失值的数量:% d \ n '总和(ismissing (dataMissing.CustAge)))
CustAge缺失值的数量:30
流(“ResStatus缺失值的数量:% d \ n '总和(ismissing (dataMissing.ResStatus)))
ResStatus缺失值的数量:40

使用creditscorecard名称-值的参数“BinMissingData”设置为真正的本失踪的数字和分类数据在一个单独的垃圾箱。

sc = creditscorecard (dataMissing,“BinMissingData”,真正的);disp (sc)
creditscorecard属性:GoodLabel: 0 ResponseVar:“地位”WeightsVar:“VarNames: {CustID的‘CustAge’‘TmAtAddress’‘ResStatus’‘EmpStatus’‘CustIncome’‘TmWBank’‘OtherCC’‘AMBalance UtilRate的“地位”}NumericPredictors: {CustID的‘CustAge’‘TmAtAddress’‘CustIncome’‘TmWBank’‘AMBalance’‘UtilRate} CategoricalPredictors: {“ResStatus”“EmpStatus”“OtherCC”} BinMissingData: 1 IDVar:“PredictorVars: {CustID的‘CustAge’‘TmAtAddress’‘ResStatus’‘EmpStatus’‘CustIncome’‘TmWBank’‘OtherCC’‘AMBalance’‘UtilRate}数据:[1200 x11表)

执行自动装箱使用合并算法。

sc = autobinning (sc,“算法”,“合并”);

显示本信息为数值型数据“CustAge”包括缺失的数据在一个单独的本标签<失踪>这是最后一本。无论如何装箱算法中使用autobinning,该算法作用于non-missing数据和本<失踪>数值预测总是最后一本。

(bi, cp) = bininfo (sc,“CustAge”);disp (bi)
本好与坏的几率,悲哀InfoValue _________________出生________ _____{'[无穷,32)}56 39 1.4359 -0.34263 0.0097643{'[32、33)}13 13 1 -0.70442 0.011663{'[33、34)}9 11 0.81818 -0.90509 0.014934{'[65)}677 317 2.1356 0.054351 0.002424{”(65年,正)}29日6 4.8333 0.87112 0.018295{' <失踪>}19 11 1.7273 -0.15787 0.00063885{“总数”}803 397 0.057718 2.0227南
plotbins (sc,“CustAge”)

图包含一个坐标轴对象。坐标轴对象标题CustAge ylabel悲哀包含3对象类型的酒吧,线。这些对象是好的,坏的。

显示本信息为分类数据“ResStatus”包括缺失的数据在一个单独的本标签<失踪>这是最后一本。无论如何装箱算法中使用autobinning,该算法作用于non-missing数据和本<失踪>定值预测总是最后一本。

(bi, cg) = bininfo (sc,“ResStatus”);disp (bi)
本好与坏的几率,悲哀InfoValue _________________出生______ _____ __________ {Group1的}648 332 1.9518 -0.035663 0.0010449{的Group2} 128年52 2.4615 0.19637 0.0055808{' <失踪>}27 13 2.0769 0.026469 2.3248 e-05{“总数”}803 397 0.0066489 2.0227南
plotbins (sc,“ResStatus”)

图包含一个坐标轴对象。坐标轴对象标题ResStatus ylabel悲哀包含3对象类型的酒吧,线。这些对象是好的,坏的。

这个例子演示了使用“分裂”算法与分类和数值预测。加载CreditCardData.mat数据集和修改,它包含四类预测的ResStatus”证明分割算法是如何工作的。

负载CreditCardData.matx = data.ResStatus;印第安纳州=找到(x = =“租户”);Nx =长度(印第安纳州);x(印第安纳州(1:地板(Nx / 3))) =“转租”;数据。ResStatus = x;

创建一个creditscorecard和使用bininfo来显示“统计数据”

sc = creditscorecard(数据,“IDVar”,“CustID”);[bi1, cg1] = bininfo (sc,“ResStatus”,“统计数据”,{“几率”,“悲哀”,“InfoValue”});disp (bi1)
本好与坏的几率,悲哀出生______ _____ __________ InfoValue * * *{‘业主’}365 177 2.0621 0.019329 0.0001682{“租户”}204 112 1.8214 -0.1048 0.0029415{‘其他’}131年53 2.4717 0.20049 0.0059418{“转租”}55 103 1.8727 -0.077023 0.00079103{“总数”}803 397 0.0098426 2.0227南
disp (cg1)
_____类别BinNumber * * *{‘业主’}1{“租户”}2{‘其他’}3{“转租”}4

使用分割算法分类预测

预分类应用于“ResStatus”类别使用默认排序“几率”并指定“分裂”算法。

sc = autobinning (sc,“ResStatus”,“算法”,“分裂”,“AlgorithmOptions”,{“测量”,“基尼”,“SortCategories”,“几率”,“宽容”,1 e4});[bi2, cg2] = bininfo (sc,“ResStatus”,“统计数据”,{“几率”,“悲哀”,“InfoValue”});disp (bi2)
本好与坏的几率,悲哀InfoValue __________出生______ ___ _____ {Group1的}803 397 0 0{“总数”}803 397 2.0227 2.0227南0
disp (cg2)
_____类别BinNumber * * *{“租户”}{“转租”}1{‘业主’}{‘其他’}1

使用分割算法与数值预测

为了演示数值预测的分裂,TmAtAddress”,第一次使用autobinning使用默认“单调”算法。

sc = autobinning (sc,“TmAtAddress”);bi3 = bininfo (sc,“TmAtAddress”,“统计数据”,{“几率”,“悲哀”,“InfoValue”});disp (bi3)
本好与坏的几率,悲哀InfoValue _________________出生______ _____ __________{'[无穷,23)}239 129 1.8527 -0.087767 0.0023963{'[83)}480 232 2.069 0.02263 0.00030269{”(83年,正)}84年36 2.3333 0.14288 0.00199{“总数”}803 397 0.004689 2.0227南

然后使用autobinning“分裂”算法。

sc = autobinning (sc,“TmAtAddress”,“算法”,“分裂”);闭= bininfo (sc,“TmAtAddress”,“统计数据”,{“几率”,“悲哀”,“InfoValue”});disp(闭)
本好与坏的几率,悲哀InfoValue _______出生_____ _____{'[负4)}20 12 1.6667 -0.19359 0.0010299{'(4、5)}4 7 0.57143 -1.264 0.015991{”(23)}215 110 1.9545 -0.034261 0.00031973{[23日,33)}130年39 3.3333 0.49955 0.0318{”(33岁,正)}434 229 1.8952 -0.065096 0.0023664{“总数”}803 397 0.051507 2.0227南

加载CreditCardData.mat数据集。这个例子演示了使用“合并”算法与分类和数值预测。

负载CreditCardData.mat

使用合并算法分类预测

合并分类预测,创建一个creditscorecard使用默认排序的“几率”然后使用bininfo在分类预测“ResStatus”

sc = creditscorecard(数据,“IDVar”,“CustID”);[bi1, cg1] = bininfo (sc,“ResStatus”,“统计数据”,{“几率”,“悲哀”,“InfoValue”});disp (bi1);
本好与坏的几率,悲哀出生______替InfoValue * * *{‘业主’}365 177 2.0621 0.019329 0.0001682{“租户”}307 167 1.8383 -0.095564 0.0036638{‘其他’}131年53 2.4717 0.20049 0.0059418{“总数”}803 397 0.0097738 2.0227南
disp (cg1);
_____类别BinNumber * * *{‘业主’}1{“租户”}2{‘其他’}3

使用autobinning并指定“合并”算法。

sc = autobinning (sc,“ResStatus”,“算法”,“合并”);[bi2, cg2] = bininfo (sc,“ResStatus”,“统计数据”,{“几率”,“悲哀”,“InfoValue”});disp (bi2)
本好与坏的几率,悲哀……替InfoValue __________出生{Group1的}672 344 1.9535 -0.034802 0.0010314{的Group2} 131年53 2.4717 0.20049 0.0059418{“总数”}803 397 0.0069732 2.0227南
disp (cg2)
_____类别BinNumber * * *{“租户”}{‘业主’}1{‘其他’}2

使用合并算法与数值预测

展示一个合并的数值预测,TmAtAddress”,第一次使用autobinning使用默认“单调”算法。

sc = autobinning (sc,“TmAtAddress”);bi3 = bininfo (sc,“TmAtAddress”,“统计数据”,{“几率”,“悲哀”,“InfoValue”});disp (bi3)
本好与坏的几率,悲哀InfoValue _________________出生______ _____ __________{'[无穷,23)}239 129 1.8527 -0.087767 0.0023963{'[83)}480 232 2.069 0.02263 0.00030269{”(83年,正)}84年36 2.3333 0.14288 0.00199{“总数”}803 397 0.004689 2.0227南

然后使用autobinning“合并”算法。

sc = autobinning (sc,“TmAtAddress”,“算法”,“合并”);闭= bininfo (sc,“TmAtAddress”,“统计数据”,{“几率”,“悲哀”,“InfoValue”});disp(闭)
本好与坏的几率,悲哀InfoValue _________________出生_____ _____{[无穷,28)的}303 152 1.9934 -0.014566 8.0646 e-05{“[28、30)”} 27 2 13.5 1.8983 0.054264{'[98)} 428 216 1.9815 -0.020574 0.00022794{”(98106)“} 11 13 0.84615 -0.87147 0.016599{”(106年,正)}34 14 2.4286 0.18288 0.0012942{“总数”}803 397 0.072466 2.0227南

输入参数

全部折叠

信用计分卡模型,指定为一个creditscorecard对象。使用creditscorecard创建一个creditscorecard对象。

预测或预测因子名称自动垃圾桶,指定为一个字符特征向量的向量或一个单元阵列包含预测的名称或预测。PredictorNames是区分大小写的,当没有PredictorNames定义,所有预测PredictorVars财产的creditscorecard对象是扔进垃圾箱。

数据类型:字符|细胞

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

例子:sc = autobinning (sc、“算法”、“EqualFrequency”)

算法选择,指定为逗号分隔组成的“算法”和一个特征向量表示使用哪个算法。相同的算法用于所有预测PredictorNames。可能的值是:

  • “单调”——(默认)单调相邻池算法(MAPA),也称为最大似然单调粗糙分类器(MLMCC)。监督优化装箱算法,旨在发现箱子有单调证据的效力(悲哀)趋势。该算法假定只有相邻的属性可以分组。因此,对于分类预测、分类排序(见前应用算法“SortCategories”选择AlgorithmOptions)。有关更多信息,请参见单调

  • “分裂”-监督装箱算法,测量是用来把数据放入垃圾箱。支持的措施金宝app“分裂”基尼,chi2,infovalue,。由此产生的分歧必须这样函数最大化的获得信息。关于这些措施的更多信息,请参阅AlgorithmOptions分裂

  • “合并”——监督自动装箱算法,测量用于合并箱到桶中。支持的措施金宝app“合并”chi2,基尼,infovalue,。结果合并必须这样,任何一对相邻的垃圾箱是统计上的不同,根据选择的措施。关于这些措施的更多信息,请参阅AlgorithmOptions合并

  • “EqualFrequency”——无监督算法将数据划分为预定数量的箱子包含大约相同数量的观察。这个算法也被称为“等高”或“平等的深度。“分类预测,应用算法(见前类别排序“SortCategories”选择AlgorithmOptions)。有关更多信息,请参见相等的频率

  • “EqualWidth”——无监督算法划分值的范围域的预测变量的预定数量的垃圾箱”宽度相等。“数值数据,测量宽度,当本边缘之间的距离。分类数据,宽度测量类别的数量在一个垃圾箱。分类预测,应用算法(见前类别排序“SortCategories”选择AlgorithmOptions)。有关更多信息,请参见平等的宽度

数据类型:字符

算法选项选中算法,指定为逗号分隔两人组成的“AlgorithmOptions”和一个单元阵列。可能的值是:

  • 单调算法:

    • {“InitialNumBins”,n}——初始数量(n)的垃圾箱(缺省为10)。“InitialNumBins”必须是一个整数>2。仅用于数值预测。

    • {“趋势”,“TrendOption”}-确定证据的效力(悲哀)单调趋势预计将增加或减少。的值“TrendOption”是:

      • “汽车”——(默认)自动决定是否增加或减少灾难的趋势。

      • “增加”——寻找越来越悲哀的趋势。

      • “减少”——寻找减少灾难的趋势。

      可选的输入参数的值“趋势”不一定反映的曲线产生的有祸了。的参数“趋势”讲述了算法来“寻找”增加或减少的趋势,但结果可能不会显示所需的趋势。例如,实际上数据时算法无法找到一个下降的趋势已经越来越悲哀的趋势。更多的信息“趋势”选项,看到单调

    • {“SortCategories”、“SortOption”}——仅用于分类预测。用于确定如何预测类别排序作为预处理步骤之前应用算法。的值“SortOption”是:

      • “几率”——(默认)的类别按顺序增加的概率值,定义为“好”“坏”比观察,对于给定的类别。

      • “货物”——增加的类别按顺序排序的值“好”。

      • “坏事”——增加价值的类别按顺序排序的“坏”。

      • “总数”——增加的类别按顺序排序的值观察总数(“好”和“坏”)。

      • “没有”——没有排序。类别不变的现有秩序之前应用算法。(现有订单的分类类别分组可选的输出中可以看到bininfo。)

      有关更多信息,请参见分类类别

  • 分裂算法:

    • {“InitialNumBins”,n}——指定一个整数决定数量(n> 0)最初被预测到的垃圾箱在分裂之前。有效的数值预测。默认是50

    • {“测量”,MeasureName}——指定的测量“MeasureName”是下列之一:“基尼”(默认),“Chi2”,“InfoValue”,或“熵”

    • {“MinBad”,n}——指定最小数量n(n> =0每本)的坏事。默认值是1,以避免纯粹的垃圾箱。

    • {“MaxBad”,n}——指定的最大数量n(n> =0每本)的坏事。默认值是

    • {“MinGood”,n}——指定最小数量n(n> =0每本)的商品。默认值是1,以避免纯粹的垃圾箱。

    • {“MaxGood”,n}——指定的最大数量n(n> =0每本)的商品。默认值是

    • {“MinCount”,n}——指定最小数量n(n> =0每本)的观察。默认值是1,以避免空箱子。

    • {“MaxCount”,n}——指定的最大数量n(n> =0每本)的观察。默认值是

    • {“MaxNumBins”,n}——指定的最大数量n(n> =2)分裂造成的垃圾箱。默认值是5

    • {“宽容”,托尔}——指定最小增益(> 0)在信息功能,在迭代计划,选择最大化利益的分割点。默认值是1 e4

    • {“意义”,n}——卡方统计显著性水平阈值,上面发生了分裂。在区间值[0,1]。默认是0.9显著性水平(90%)。

    • {“SortCategories”、“SortOption”}——仅用于分类预测。用于确定如何预测类别排序作为预处理步骤之前应用算法。的值“SortOption”是:

      • “货物”——增加的类别按顺序排序的值“好”。

      • “坏事”——增加价值的类别按顺序排序的“坏”。

      • “几率”——(默认)的类别按顺序增加的概率值,定义为“好”“坏”比观察,对于给定的类别。

      • “总数”——增加的类别按顺序排序的值观察总数(“好”和“坏”)。

      • “没有”——没有排序。类别不变的现有秩序之前应用算法。(现有订单的分类类别分组可选的输出中可以看到bininfo。)

      有关更多信息,请参见分类类别

  • 合并算法:

    • {“InitialNumBins”,n}——指定一个整数决定数量(n> 0)预测最初的箱子扔进垃圾箱之前合并。有效的数值预测。默认是50

    • {“测量”,MeasureName}——指定的测量“MeasureName”是下列之一:“Chi2”(默认),“基尼”,“InfoValue”,或“熵”

    • {“MinNumBins”,n}——指定最小数量n(n> =2)由于合并的垃圾箱。默认值是2

    • {“MaxNumBins”,n}——指定的最大数量n(n> =2)由于合并的垃圾箱。默认值是5

    • {“宽容”,n}——指定的最小阈值低于合并发生的信息熵值和统计数据。有效值的间隔(0.1)。默认是1 e3

    • {“意义”,n}——卡方统计显著性水平阈值,低于合并发生。在区间值[0,1]。默认是0.9显著性水平(90%)。

    • {“SortCategories”、“SortOption”}——仅用于分类预测。用于确定如何预测类别排序作为预处理步骤之前应用算法。的值“SortOption”是:

      • “货物”——增加的类别按顺序排序的值“好”。

      • “坏事”——增加价值的类别按顺序排序的“坏”。

      • “几率”——(默认)的类别按顺序增加的概率值,定义为“好”“坏”比观察,对于给定的类别。

      • “总数”——增加的类别按顺序排序的值观察总数(“好”和“坏”)。

      • “没有”——没有排序。类别不变的现有秩序之前应用算法。(现有订单的分类类别分组可选的输出中可以看到bininfo。)

      有关更多信息,请参见分类类别

  • EqualFrequency算法:

    • {“NumBins”,n}——指定所需的号码(n)的垃圾箱。默认值是{NumBins, 5}和垃圾箱的数量必须是正数。

    • {“SortCategories”、“SortOption”}——仅用于分类预测。用于确定如何预测类别排序作为预处理步骤之前应用算法。的值“SortOption”是:

      • “几率”——(默认)的类别按顺序增加的概率值,定义为“好”“坏”比观察,对于给定的类别。

      • “货物”——增加的类别按顺序排序的值“好”。

      • “坏事”——增加价值的类别按顺序排序的“坏”。

      • “总数”——增加的类别按顺序排序的值观察总数(“好”和“坏”)。

      • “没有”——没有排序。类别不变的现有秩序之前应用算法。(现有订单的分类类别分组可选的输出中可以看到bininfo。)

      有关更多信息,请参见分类类别

  • EqualWidth算法:

    • {“NumBins”,n}——指定所需的号码(n)的垃圾箱。默认值是{NumBins, 5}和垃圾箱的数量必须是正数。

    • {“SortCategories”、“SortOption”}——仅用于分类预测。用于确定如何预测类别排序作为预处理步骤之前应用算法。的值“SortOption”是:

      • “几率”——(默认)的类别按顺序增加的概率值,定义为“好”“坏”比观察,对于给定的类别。

      • “货物”——增加的类别按顺序排序的值“好”。

      • “坏事”——增加价值的类别按顺序排序的“坏”。

      • “总数”——增加的类别按顺序排序的值观察总数(“好”和“坏”)。

      • “没有”——没有排序。类别不变的现有秩序之前应用算法。(现有订单的分类类别分组可选的输出中可以看到bininfo。)

      有关更多信息,请参见分类类别

例子:sc = autobinning (sc,“CustAge”,“算法”,“单调”,“AlgorithmOptions”{“趋势”,“增加”})

数据类型:细胞

指示器显示装箱过程的状态信息在命令行指定为逗号分隔组成的“显示”和一个特征向量的值“上”“关闭”

数据类型:字符

输出参数

全部折叠

信用计分卡模型,作为一个更新返回creditscorecard对象包含自动确定装箱地图或规则(减少点或类别分组)一个或多个预测。有关使用的更多信息creditscorecard对象,看到creditscorecard

请注意

如果您以前使用过modifybins函数来手动修改箱子,这些变化是失去了在运行autobinning因为所有的数据是基于内部autobinning规则自动封存。

更多关于

全部折叠

单调

“单调”算法的实现单调相邻池算法(MAPA),也称为最大似然单调粗糙分类器(MLMCC);看到安德森和托马斯引用

预处理

在预处理阶段,预处理的数值预测在于应用等于频率装箱,箱的数量决定的“InitialNumBins”参数(默认是10箱)。分类预测的预处理包括根据分类的类别“SortCategories”标准(默认是按几率增加顺序排序)。排序不应用于序列预测。看到分类类别定义或描述AlgorithmOptions选择“SortCategories”为更多的信息。

主要算法

下面的例子说明了“单调”算法数值数据的到达降低点。

迭代 迭代 迭代3 Iteration4

“[无穷,33000)”

127年 107年 0.543

“[33000、38000)”

194年 90年 0.620 0.683

“[38000、42000)”

135年 78年 0.624 0.662

“[42000、47000)”

164年 66年 0.645 0.678 0.713

”(47000年,正)

183年 56 0.669 0.700 0.740 0.766

最初,数字数据预处理与同等频率装箱。在这个示例中,为了简单起见,只有五个初始使用垃圾箱。第一列表示等于频率本范围,和第二和第三列有“好”和“坏”的数量每本。(观察的数量是1200,那么一个完美的频率相等装箱会导致五箱240的观察。在这种情况下,观察每本240完全不匹配。这是一个常见的情况,当数据有重复值)。

单调发现破发点累积比例的基础上“好”的观察。在“迭代”列,第一个值(0.543)是“好”的数量在第一本(127),观察除以总数量的观察本(127 + 107)。第二个值(0.620)是“好”的数量的观察在箱子1和2,除以总数量的观察箱子1和2。等等。第一个削减点设置在哪里找到这个累积的最低比率,这是第一本在这个例子。这是迭代1月底。

后从第二本(第一本最小值的位置在前面的迭代),累计计算比例的“好”的观察。第二个减少点设置在最低的累积比例。在这种情况下,它是在3号本,因此箱2和3合并。

该算法所得相同的方式有两个更多的迭代。在这个特殊的例子中,最后只合并箱2和3。最后装箱有四个箱子割分在33000年,42000年和47000年。

分类数据,唯一的区别是在于重新排序分类的预处理步骤。考虑下面的分类数据:

几率

“业主”

365年 177年 2.062

“租户”

307年 167年 1.838

“其他”

131年 53 2.474

的预处理步骤中,默认情况下,类的类别“几率”。(见分类类别定义或描述AlgorithmOptions选择“SortCategories”为更多的信息。)然后,它适用于上述同样的步骤,如下表所示:

几率 迭代 迭代 迭代3
“租户” 307年 167年 1.838 0.648
“业主” 365年 177年 2.062 0.661 0.673
“其他” 131年 53 2.472 0.669 0.683 0.712

在这种情况下,单调算法不会合并任何类别。唯一的区别,而算法的应用程序之前的数据,现在按类别“几率”

在上面的数字和分类的例子中,隐式“趋势”的选择是“增加”。(见的描述AlgorithmOptions选择“单调”“趋势”选择。)如果你设置的趋势“减少”,算法寻找最大最小的(而不是)累积比率确定切割点。在这种情况下,在迭代1,最大的最后一本,这将意味着所有箱子都应该合并成一个单一的垃圾箱。装箱信息到一个本是全损,没有实际用途。因此,当选择趋势导致一个本,拒绝单调实现,算法返回后的垃圾箱发现预处理步骤。这个状态是初始频率相等装箱为数值数据和分类数据的分类类别。单调的实现算法在默认情况下使用启发式识别趋势(“汽车”选择“趋势”)。

分裂

分裂是一个监督自动装箱算法,测量是用来把数据分割成桶。支持措施金宝app基尼,chi2,infovalue,

在内部,分割算法过程如下:

  1. 所有类别合并成一个单一的垃圾箱。

  2. 在第一个迭代,所有潜在的割点指数测试看到哪一个结果的最大增加信息函数(基尼,InfoValue,,或Chi2)。然后选择割点,本是分裂的。

  3. 重申未来sub-bins相同的步骤。

  4. 算法停止当达到最大数量的垃圾箱或分裂时不会导致任何额外的信息改变功能的变化。

下表的分类预测总结变化的值函数在每个迭代。在这个例子中,“基尼”是选择的措施,这样的目标是看到一个降低基尼测量在每个迭代。

迭代0本数量 成员 基尼 迭代1箱数量 成员 基尼 迭代2箱数量 成员 基尼

1

“租户” 1 “租户” 1 “租户” 0.45638

1

“转租” 1 “转租” 0.44789 1 “转租”

1

“业主” 1 “业主” 2 “业主” 0.43984

1

“其他” 2 “其他” 0.41015 3 “其他” 0.41015

总基尼

0.442765 0.442102 0.441822
相对变化 0 0.001498 0.002128

相对变化迭代关于基尼系数衡量在迭代整个箱子的吗1。最终结果对应于上次迭代,在这个例子中,是迭代2。

下表的数值预测总结变化的值函数在每个迭代。在这个例子中,“基尼”是选择的措施,这样的目标是看到一个降低基尼测量在每个迭代。因为大多数数值预测数据集包含许多垃圾箱,有一个数据预处理步骤是pre-binned 50频率相同进垃圾箱中。这使得有效割点可供选择的分裂更小,更易于管理。

迭代0本数量 成员 基尼 迭代1箱数量 基尼 迭代2箱数量 基尼 迭代3箱数量 基尼

1

“21” “(负无穷,47岁)” 0.473897 “(负无穷,47岁)” 0.473897 “(负无穷,35)” 0.494941

1

“22” “[47岁,正]” 0.385238 “[61]” 0.407072 “[35岁,47]” 0.463201

1

“23” ”(61年,正) 0.208795 “[61]” 0.407072

1

“74” 0 ”(61年,正) 0.208795

总基尼

0.442765 0.435035 0.432048 0.430511
相对变化 0 0.01746 0.006867 0.0356

由此产生的分歧必须这样的信息(内容)增加功能。因此,最好的分裂是导致最大信息增益。函数支持的信息是:金宝app

  • 基尼:每个分裂导致提高基尼系数,定义为:

    G_r = 1 - G_hat / G_p

    G_p基尼系数衡量的父节点,也就是说,在分裂之前给定垃圾箱/类别的。G_hat加权基尼系数衡量当前分裂:

    G_hat =总和((nj / N) *基尼(j), j = 1 . . m)

    在哪里

    新泽西观测的总数吗j本。

    N观测的数据集的总数。

    是分裂的数量给定变量。

    基尼(j)基尼系数衡量的吗j本。

    基尼分裂/节点的测量j是:

    基尼(j) = 1 - (Gj ^ 2 + Bj ^ 2) / (nj) ^ 2
    在哪里Gj,Bj=数量的商品和坏事为本j

  • InfoValue:信息价值为每个分裂导致的增加的总信息。保留的分裂是导致最大增益,在可接受的公差。价值的信息(IV)对于一个给定的观察j被定义为:

    4 =总和((pG_i-pB_i) *日志(pG_i / pB_i), i = 1 . . n)
    在哪里

    pG_i是在观察商品的分布,这是(我)/ Total_Goods商品

    pB_i的分布在观察坏事吗,这是坏事(我)/ Total_Bads

    n是箱子的总数。

  • :每个分裂导致熵减少方差定义为:

    E =总和(ni * Ei, i = 1 . . n)

    在哪里

    总菌数本吗,这是(倪= Gi + Bi)

    Ei是连续的熵(或本),定义为:

    Ei =总和(Gi值(Gi / ni) + Bi * log2 (Bi / ni)) / N, i = 1 . . N
  • Chi2:Chi2计算成对每一对垃圾箱和措施统计两组之间的差异。选择分裂点(割点或类别索引)的最大Chi2值是:

    Chi2 =总和(和((Aij - Eij) ^ 2 / Eij, j k = 1 . .), i = m m + 1)

    在哪里

    将值从1……n - 1,在那里n是箱子的数量。

    k类的数量。在这里k = 2(商品,坏事)。

    Aij本观测的数量,j类。

    Eij是预期的频率Aij,等于(Ri * Cj) / N

    国际扶轮本观测的数量,等于总和(Aij j k = 1 . .)

    Cj观察的数量吗jth类,等于sum (Aij, I = m m + 1)

    N是观察,总数等于总和(Cj, j k = 1 . .)

Chi2衡量整个样本(而不是成对Chi2测量相邻垃圾箱)是:

Chi2 =总和(和((Aij - Eij) ^ 2 / Eij, j k = 1 . .), i = 1 . . n)

合并

合并是一个监督自动装箱算法,测量用于合并箱到桶中。支持措施金宝appchi2,基尼,infovalue,

在内部,合并算法所得如下:

  1. 所有类别最初是在不同的垃圾箱。

  2. 用户选择的信息函数(Chi2,基尼,InfoValue)计算任何一对相邻的垃圾箱。

  3. 在每个迭代中,最小的一对信息变化来衡量选择的功能合并。

  4. 合并一直持续到:

    1. 成对所有信息值大于设定的阈值显著性水平或相对变化小于公差。

    2. 如果最后,垃圾箱的数量仍大于MaxNumBins允许的,合并是迫使直到有最多MaxNumBins箱里。同样,当只有合并停止MinNumBins箱里。

  5. 直言,原箱/类别是预先根据用户选择集的排序。对于数值型数据,数据预处理IntialNumBins箱子合并算法开始前相同的频率。

下表的分类预测总结变化的值函数在每个迭代。在这个例子中,“Chi2”选择的措施。默认的排序几率应用作为预处理步骤。的Chi2价值报告下面的行是箱子+ 1。显著性水平是0.9(90%),这样逆Chi2值是2.705543。这是阈值低于相邻的双箱合并。容器的最低数量是2。

迭代0本数量 成员 Chi2 迭代1箱数量 成员 Chi2 迭代2箱数量 成员 Chi2

1

“租户” 1.007613 1 “租户” 0.795920 1 “租户”

2

“转租” 0.257347 2 “转租” 1 “转租”

3

“业主” 1.566330 2 “业主” 1.522914 1 “业主” 1.797395

4

“其他” 3 “其他” 2 “其他”

总Chi2

2.573943 2.317717 1.797395

下表的数值预测总结变化的值函数在每个迭代。在这个例子中,“Chi2”选择的措施。

迭代0本数量 Chi2 迭代1箱 Chi2 最后一次迭代垃圾箱 Chi2
“(负无穷,22)” 0.11814 “(负无穷,22)” 0.11814 “(负无穷,33)” 8.4876
“(22、23)” 1.6464 “(22、23)” 1.6464 ”33岁的[48] 7.9369

“[64]” 9.956
“[58 59]” 0.311578 “[58 59]” 0.27489 “(64、65)” 9.6988
“(59、60)” 0.068978 “(59,61)” 1.8403 ”(65年,正)
“[61]” 1.8709 “(61、62)” 5.7946
“(61、62)” 5.7946
“(69、70)” 6.4271
“(69、70)” 6.4271 ”(70年,正)
”(70年,正)

总Chi2

67.467 67.399 23.198

结果合并必须这样,任何一对相邻的垃圾箱是统计上的不同,根据选择的措施。这些措施支持金宝app合并是:

  • Chi2:Chi2计算成对每一对垃圾箱和措施统计两组之间的差异。选择合并在一个点(割点或类别索引)最大Chi2值是:

    Chi2 =总和(和((Aij - Eij) ^ 2 / Eij, j k = 1 . .), i = m m + 1)

    在哪里

    将值从1……n - 1,n是箱子的数量。

    k类的数量。在这里k = 2(商品,坏事)。

    Aij本观测的数量,j类。

    Eij是预期的频率Aij,等于(Ri * Cj) / N

    国际扶轮本观测的数量,等于总和(Aij j k = 1 . .)

    Cj观察的数量吗jth类,等于sum (Aij, I = m m + 1)

    N是观察,总数等于总和(Cj, j k = 1 . .)

    Chi2衡量整个样本(而不是成对Chi2测量相邻垃圾箱)是:

    Chi2 =总和(和((Aij - Eij) ^ 2 / Eij, j k = 1 . .), i = 1 . . n)

  • 基尼:每个合并导致降低基尼系数,定义为:

    G_r = 1 - G_hat / G_p

    G_p基尼系数衡量的父节点,也就是说,之前给定垃圾箱/类别的合并。G_hat加权基尼系数衡量当前合并:

    G_hat =总和((nj / N) *基尼(j), j = 1 . . m)

    在哪里

    新泽西观测的总数吗j本。

    N观测的数据集的总数。

    是合并的数量给定变量。

    基尼(j)基尼系数衡量的吗j本。

    基尼合并/节点的测量j是:

    基尼(j) = 1 - (Gj ^ 2 + Bj ^ 2) / (nj) ^ 2
    在哪里Gj,Bj=数量的商品和坏事为本j

  • InfoValue:信息价值为每个合并将导致减少的总信息。保留的合并是一个结果最小增益,在可接受的公差。价值的信息(IV)对于一个给定的观察j被定义为:

    4 =总和((pG_i-pB_i) *日志(pG_i / pB_i), i = 1 . . n)
    在哪里

    pG_i是在观察商品的分布,这是(我)/ Total_Goods商品

    pB_i的分布在观察坏事吗,这是坏事(我)/ Total_Bads

    n是箱子的总数。

  • :每个合并导致熵增加方差定义为:

    E =总和(ni * Ei, i = 1 . . n)

    在哪里

    总菌数本吗,这是(倪= Gi + Bi)

    Ei是连续的熵(或本),定义为:

    Ei =总和(Gi值(Gi / ni) + Bi * log2 (Bi / ni)) / N, i = 1 . . N

请注意

当使用合并算法,如果有纯垃圾桶(箱数为零货物或零计数坏事),统计信息价值和熵等非限定的值。考虑到这一点,频移。5适用于计算各种统计数据时算法发现纯粹的垃圾箱。

相等的频率

无监督算法将数据划分为预定数量的箱子包含大约相同数量的观察。

EqualFrequency被定义为:

让v [1], [2],…,v[N] be the sorted list of different values or categories observed in the data. Let f[)是v的频率(]。让F [k]= [1]+……+ f (k)的累积和频率的k排序值。那么F [N)的总数是一样的观察。

定义AvgFreq= F (N)/NumBins,这是理想的每箱装箱后平均频率。的n减少点指数的指数k这样的距离abs (F (k]-n*AvgFreq)是最小化。

这条规则匹配的累积频率n本。如果一个值包含太多的观察,等于频率垃圾箱是不可能的,收益率低于上述规则NumBins总箱。在这种情况下,算法决定NumBins分手垃圾箱,垃圾箱的顺序垃圾箱了。

分类预测的预处理包括根据分类的类别“SortCategories”标准(默认是按几率增加顺序排序)。排序不应用于序列预测。看到分类类别定义或描述AlgorithmOptions选择“SortCategories”为更多的信息。

平等的宽度

无监督算法,将值的范围域的预测变量的预定数量的垃圾箱”宽度相等。“数值数据,测量宽度,当本边缘之间的距离。分类数据,宽度测量类别的数量在一个垃圾箱。

EqualWidth选项的定义是:

对于数值型数据,如果MinValueMaxValue最小和最大数据值,那么

宽度= (MaxValue - MinValue) / NumBins
割点MinValue+宽度,MinValue+ 2 *宽度,…MaxValue——宽度。如果一个MinValueMaxValue没有指定使用吗modifybins函数,EqualWidth选择集MinValueMaxValue观察到的最小值和最大值的数据。

分类数据,如果有NumCats原始的数量分类

宽度= NumCats / NumBins,
并设置切割点指数的圆形值宽度,2 *宽度,…NumCats宽度,+ 1。

分类预测的预处理包括根据分类的类别“SortCategories”标准(默认是按几率增加顺序排序)。排序不应用于序列预测。看到分类类别定义或描述AlgorithmOptions选择“SortCategories”为更多的信息。

分类类别

作为分类数据的预处理步骤,“单调”,“EqualFrequency”,“EqualWidth”金宝app支持“SortCategories”输入。这是重新排序的目的类别申请前的主要算法。默认的排序标准排序“几率”。例如,假设数据最初是这样的:

几率
“业主” 365年 177年 2.062
“租户” 307年 167年 1.838
“其他” 131年 53 2.472

预处理步骤后,将按行“几率”和表是这样的:

几率
“租户” 307年 167年 1.838
“业主” 365年 177年 2.062
“其他” 131年 53 2.472

三个算法只合并相邻的垃圾箱,所以的初始订单类别差异最后装箱。的“没有”选择“SortCategories”将原始表不变。排序标准支持的描述,请参阅的描述金宝appAlgorithmOptions选择“SortCategories”

建设记分卡,最初的顺序分类,任何装箱算法或修改应用之前,第一个输出所示的顺序bininfo。如果箱子被修改(手动modifybins或自动autobinning),使用可选的输出(cg,“类别分组”)bininfo得到当前的类别。

“SortCategories”选择对分类预测没有影响的“顺序”参数设置为true(请参阅“顺序”在MATLAB输入参数®分类数组为分类。顺序数据的自然秩序,这是荣幸的预处理步骤算法把分类的顺序不变。只有分类预测的“顺序”参数是假的(默认选项)重新排序显示的类别“SortCategories”标准。

使用autobinning与重量

当观察权重定义使用可选的WeightsVar参数在创建一个creditscorecard对象,而不是数行,在每个垃圾桶,是好是坏autobinning函数累积行的重量在每本是好是坏。

“频率”报道不再是基本的“数”的行,但“累积重量”的行,是好是坏,在一个特定的垃圾箱。一旦这些“加权频率”,所有其他的相关统计数据(,,几率,有祸了,InfoValue)与通常的计算公式。有关更多信息,请参见信用计分卡建模使用观察权重

引用

[1]安德森,R。信用评分工具包。牛津大学出版社,2007年。

[2]科伯,R。“ChiMerge:数值型属性的离散化。”aaai - 92程序。1992年。

[3],H。等人。数据挖掘、知识和发现。6卷。问题4。2002年10月,页393 - 423。

[4]Refaat, M。数据准备使用SAS数据挖掘。2006年摩根考夫曼。

[5]Refaat, M。信用风险记分卡:使用情景应用程序开发和实现。lulu.com, 2011。

[6]托马斯,L。,等。信用评分和它的应用程序。工业与应用数学学会,2002年。

版本历史

介绍了R2014b