格式点

格式化记分卡点和缩放

描述

例子

SC.=格式点(SC,名称,值使用可选的名称值对参数修改记分卡点并进行缩放。例如,使用可选的名称值对参数来更改分数的缩放或点数的舍入。

例子

全部折叠

此示例演示如何使用格式点通过提供点数、赔率水平和PDO(点数使赔率翻倍)进行缩放。利用格式点为了进行缩放,您可以将分数和分数放在一个对实际目的更有意义的期望范围内。技术上讲,这涉及到一个从未缩放点到缩放点的线性变换格式点功能。

创建一个CreditsCorecard.对象使用CreditCardData.mat要加载的文件数据(使用Refaat 2011的数据集)。使用“IDVar”争论CreditsCorecard.表明“CustID”包含ID信息,不应包含为预测变量。

负载CreditCardDatasc = creditscorecard(数据,“IDVar”“CustID”);

对所有预测器执行自动装箱。

sc = autobinning (sc);

使用默认参数拟合线性回归模型。

sc = fitmodel (sc);
1.添加询问,偏差= 1490.8527,pvalue = 1.1387992E-08 2.添加TMWBANK,Deviance = 1467.1415,Chi2Stat = 23.711203,Pvalue = 1.1192909E-06 3.添加余距,偏差= 1455.5715,Chi2stat = 11.569967那PValue = 0.00067025601 4. Adding EmpStatus, Deviance = 1447.3451, Chi2Stat = 8.2264038, PValue = 0.0041285257 5. Adding CustAge, Deviance = 1441.994, Chi2Stat = 5.3511754, PValue = 0.020708306 6. Adding ResStatus, Deviance = 1437.8756, Chi2Stat = 4.118404, PValue = 0.042419078 7. Adding OtherCC, Deviance = 1433.707, Chi2Stat = 4.1686018, PValue = 0.041179769 Generalized linear regression model: status ~ [Linear formula with 8 terms in 7 predictors] Distribution = Binomial Estimated Coefficients: Estimate SE tStat pValue ________ ________ ______ __________ (Intercept) 0.70239 0.064001 10.975 5.0538e-28 CustAge 0.60833 0.24932 2.44 0.014687 ResStatus 1.377 0.65272 2.1097 0.034888 EmpStatus 0.88565 0.293 3.0227 0.0025055 CustIncome 0.70164 0.21844 3.2121 0.0013179 TmWBank 1.1074 0.23271 4.7589 1.9464e-06 OtherCC 1.0883 0.52912 2.0569 0.039696 AMBalance 1.045 0.32214 3.2439 0.0011792 1200 observations, 1192 error degrees of freedom Dispersion: 1 Chi^2-statistic vs. constant model: 89.7, p-value = 1.4e-16

显示拟合模型中保留的预测器的未缩放点,并显示可能的最小和最大未缩放分数。

[POINDEDFO,MINSCORE,MAXSCORE] = DISPLAYPOINTS(SC)
PointsInfo =37×3表预测变点______________ __________________________ {'custage'} {'[-inf,33)'} -0.15894 {'caterage'} {'[33,37)'} -0.14036 {'cometers'} {'[37,40)'} -0.060323 {'custage'} {'[40,46)'} 0.046408 {'caterage'} {''[46,48)'} 0.21445 {'监狱'} {'[48,58)'} 0.23039{'custage'} {'[58,inf]'} 0.479 {'catere'} {'<缺失>'} nan {'resstatus'} {'租户'} -0.031252 {'resstatus'} {'resstatus'} {'resomed's'0.12696 {'Resstatus'} {'其他'} 0.37641 {'resstatus'} {'<缺少>'} nan {'empstatus'} {'未知'} -0.076317 {'empstatus'} {雇用的'} 0.31449 {'empstatus'} {'<缺失>'} nan {'custincome'} {'[-inf,29000)'} -0.45716⋮
MinScore=-1.3100
MaxScore=3.0726

通过提供点数、几率级别和PDO(点数使几率加倍)来扩大规模。假设你想要获得500分的概率是2(好的概率是坏的概率的两倍),概率每50分翻一倍(所以550分的概率是4)。

sc = formatopoints(sc,“PointsOddsAndPDO”,[500 2 50]); [PointsInfo、MinScore、MaxScore]=显示点(sc)
PointsInfo =37×3表预测本点  ______________ ________________ ______ {' CustAge’}{[无穷,33)的52.821}{‘CustAge}{[33岁,37)的54.161}{‘CustAge}{[37、40)的59.934}{‘CustAge}{[40岁,46)的67.633}{‘CustAge}{[46岁,48)的79.755}{‘CustAge}{[48, 58)的80.905}{“CustAge”}{的[58岁的Inf]} 98.838{‘CustAge}{“失踪> <”}南{' ResStatus '}{'Tenant'} 62.031 {'ResStatus'} {'Home Owner'} 73.444 {'ResStatus'} {'Other'} 91.438 {'ResStatus'} {''} NaN {'EmpStatus'} {'Unknown'} 58.781 {'EmpStatus'} {'Employed'} 86.971 {'EmpStatus'} {''} NaN {'CustIncome'} {'[-Inf,29000)'} 31.309⋮
MinScore = 355.5051
maxscore = 671.6403.

此示例演示如何使用格式点通过提供最差最好得分价值。通过使用格式点要进行分级,您可以将分数和分数设置在所需的范围内,这对于实际目的来说更有意义。从技术上讲,这涉及到从未缩放点到缩放点的线性变换。

创建一个CreditsCorecard.对象使用CreditCardData.mat要加载的文件数据(使用Refaat 2011的数据集)。使用“IDVar”争论CreditsCorecard.表明“CustID”包含ID信息,不应包含为预测变量。

负载CreditCardDatasc = creditscorecard(数据,“IDVar”“CustID”);

对所有预测器执行自动装箱。

sc = autobinning (sc);

使用默认参数拟合线性回归模型。

sc = fitmodel (sc);
1.添加询问,偏差= 1490.8527,pvalue = 1.1387992E-08 2.添加TMWBANK,Deviance = 1467.1415,Chi2Stat = 23.711203,Pvalue = 1.1192909E-06 3.添加余距,偏差= 1455.5715,Chi2stat = 11.569967那PValue = 0.00067025601 4. Adding EmpStatus, Deviance = 1447.3451, Chi2Stat = 8.2264038, PValue = 0.0041285257 5. Adding CustAge, Deviance = 1441.994, Chi2Stat = 5.3511754, PValue = 0.020708306 6. Adding ResStatus, Deviance = 1437.8756, Chi2Stat = 4.118404, PValue = 0.042419078 7. Adding OtherCC, Deviance = 1433.707, Chi2Stat = 4.1686018, PValue = 0.041179769 Generalized linear regression model: status ~ [Linear formula with 8 terms in 7 predictors] Distribution = Binomial Estimated Coefficients: Estimate SE tStat pValue ________ ________ ______ __________ (Intercept) 0.70239 0.064001 10.975 5.0538e-28 CustAge 0.60833 0.24932 2.44 0.014687 ResStatus 1.377 0.65272 2.1097 0.034888 EmpStatus 0.88565 0.293 3.0227 0.0025055 CustIncome 0.70164 0.21844 3.2121 0.0013179 TmWBank 1.1074 0.23271 4.7589 1.9464e-06 OtherCC 1.0883 0.52912 2.0569 0.039696 AMBalance 1.045 0.32214 3.2439 0.0011792 1200 observations, 1192 error degrees of freedom Dispersion: 1 Chi^2-statistic vs. constant model: 89.7, p-value = 1.4e-16

显示拟合模型中保留的预测器的未缩放点,并显示可能的最小和最大未缩放分数。

[POINDEDFO,MINSCORE,MAXSCORE] = DISPLAYPOINTS(SC)
PointsInfo =37×3表预测变点______________ __________________________ {'custage'} {'[-inf,33)'} -0.15894 {'caterage'} {'[33,37)'} -0.14036 {'cometers'} {'[37,40)'} -0.060323 {'custage'} {'[40,46)'} 0.046408 {'caterage'} {''[46,48)'} 0.21445 {'监狱'} {'[48,58)'} 0.23039{'custage'} {'[58,inf]'} 0.479 {'catere'} {'<缺失>'} nan {'resstatus'} {'租户'} -0.031252 {'resstatus'} {'resstatus'} {'resomed's'0.12696 {'Resstatus'} {'其他'} 0.37641 {'resstatus'} {'<缺少>'} nan {'empstatus'} {'未知'} -0.076317 {'empstatus'} {雇用的'} 0.31449 {'empstatus'} {'<缺失>'} nan {'custincome'} {'[-inf,29000)'} -0.45716⋮
MinScore=-1.3100
MaxScore=3.0726

通过提供“最糟糕”'最好'得分价值。下面提供的范围是常见的得分范围。再次显示点信息以验证它们是否现在缩放并显示缩放最小和最大分数。

sc = formatopoints(sc,'Wortstandbestscores'850年[300]);[POINDEDFO,MINSCORE,MAXSCORE] = DISPLAYPOINTS(SC)
PointsInfo =37×3表预测本点  ______________ ________________ ______ {' CustAge’}{[无穷,33)的46.396}{‘CustAge}{[33岁,37)的48.727}{‘CustAge}{[37、40)的58.772}{‘CustAge}{[40岁,46)的72.167}{‘CustAge}{[46岁,48)的93.256}{‘CustAge}{[48, 58)的95.256}{“CustAge”}{的[58岁的Inf]} 126.46{‘CustAge}{“失踪> <”}南{' ResStatus '}{'EmpStatus'} {'EmpStatus'} {'Employed'} 105.81 {'EmpStatus'} {'EmpStatus'} {'CustIncome'} {'[-Inf,29000)'}} 8.9706⋮
MinScore=300.0000
MaxScore=850

不出所料,值minscore.MaxScore对应于期望的最差和最好的分数。

此示例演示如何使用格式点通过提供转移值。通过使用格式点为了进行缩放,您可以将分数和分数放在一个对实际目的更有意义的期望范围内。技术上讲,这涉及到一个从未缩放点到缩放点的线性变换格式点功能。

创建一个CreditsCorecard.对象使用CreditCardData.mat要加载的文件数据(使用Refaat 2011的数据集)。使用“IDVar”争论CreditsCorecard.表明“CustID”包含ID信息,不应包含为预测变量。

负载CreditCardDatasc = creditscorecard(数据,“IDVar”“CustID”);

对所有预测器执行自动装箱。

sc = autobinning (sc);

使用默认参数拟合线性回归模型。

sc = fitmodel (sc);
1.添加询问,偏差= 1490.8527,pvalue = 1.1387992E-08 2.添加TMWBANK,Deviance = 1467.1415,Chi2Stat = 23.711203,Pvalue = 1.1192909E-06 3.添加余距,偏差= 1455.5715,Chi2stat = 11.569967那PValue = 0.00067025601 4. Adding EmpStatus, Deviance = 1447.3451, Chi2Stat = 8.2264038, PValue = 0.0041285257 5. Adding CustAge, Deviance = 1441.994, Chi2Stat = 5.3511754, PValue = 0.020708306 6. Adding ResStatus, Deviance = 1437.8756, Chi2Stat = 4.118404, PValue = 0.042419078 7. Adding OtherCC, Deviance = 1433.707, Chi2Stat = 4.1686018, PValue = 0.041179769 Generalized linear regression model: status ~ [Linear formula with 8 terms in 7 predictors] Distribution = Binomial Estimated Coefficients: Estimate SE tStat pValue ________ ________ ______ __________ (Intercept) 0.70239 0.064001 10.975 5.0538e-28 CustAge 0.60833 0.24932 2.44 0.014687 ResStatus 1.377 0.65272 2.1097 0.034888 EmpStatus 0.88565 0.293 3.0227 0.0025055 CustIncome 0.70164 0.21844 3.2121 0.0013179 TmWBank 1.1074 0.23271 4.7589 1.9464e-06 OtherCC 1.0883 0.52912 2.0569 0.039696 AMBalance 1.045 0.32214 3.2439 0.0011792 1200 observations, 1192 error degrees of freedom Dispersion: 1 Chi^2-statistic vs. constant model: 89.7, p-value = 1.4e-16

显示拟合模型中保留的预测器的未缩放点,并显示可能的最小和最大未缩放分数。

[POINDEDFO,MINSCORE,MAXSCORE] = DISPLAYPOINTS(SC)
PointsInfo =37×3表预测变点______________ __________________________ {'custage'} {'[-inf,33)'} -0.15894 {'caterage'} {'[33,37)'} -0.14036 {'cometers'} {'[37,40)'} -0.060323 {'custage'} {'[40,46)'} 0.046408 {'caterage'} {''[46,48)'} 0.21445 {'监狱'} {'[48,58)'} 0.23039{'custage'} {'[58,inf]'} 0.479 {'catere'} {'<缺失>'} nan {'resstatus'} {'租户'} -0.031252 {'resstatus'} {'resstatus'} {'resomed's'0.12696 {'Resstatus'} {'其他'} 0.37641 {'resstatus'} {'<缺少>'} nan {'empstatus'} {'未知'} -0.076317 {'empstatus'} {雇用的'} 0.31449 {'empstatus'} {'<缺失>'} nan {'custincome'} {'[-inf,29000)'} -0.45716⋮
MinScore=-1.3100
MaxScore=3.0726

通过提供'转移''坡'值。在这个例子中,可以任意选择位移和斜率。再次显示点信息以验证它们是否现在缩放并显示缩放最小和最大分数。

sc = formatopoints(sc,'shiftandslope',[300 6]);[POINDEDFO,MINSCORE,MAXSCORE] = DISPLAYPOINTS(SC)
PointsInfo =37×3表预测器垃圾桶点_____________________________________________________________-inf,33)'} 41.904 {'守则'} {'[33,37)'} 42.015 {'监狱'} {'[37,40)'42.495 {'Catere'} {'[40,46)'} 43.136 {'Catere'} {'[46,48)'} 44.144 {'守则'} {'[48,58)'} 44.239 {'监护人'} {'[58,inf]'} 45.731 {'catere'} {'<缺失>'} nan {'resstatus'} {'租户'} 42.67 {'resstatus'} {'resstatus'} {'房主'} 43.619 {'resstatus' } {'Other' } 45.116 {'ResStatus' } {'' } NaN {'EmpStatus' } {'Unknown' } 42.399 {'EmpStatus' } {'Employed' } 44.744 {'EmpStatus' } {'' } NaN {'CustIncome'} {'[-Inf,29000)'} 40.114 ⋮
Minscore = 292.1401.
maxscore = 318.4355.

此示例演示如何使用格式点将基点与分配给每个预测变量的其余点分开。这个格式点名称 - 值对参数'基点'正是为了这个目的。

创建一个CreditsCorecard.对象使用CreditCardData.mat要加载的文件数据(使用Refaat 2011的数据集)。使用“IDVar”争论CreditsCorecard.表明“CustID”包含ID信息,不应包含为预测变量。

负载CreditCardDatasc = creditscorecard(数据,“IDVar”“CustID”);

对所有预测器执行自动装箱。

sc = autobinning (sc);

使用默认参数拟合线性回归模型。

sc = fitmodel (sc);
1.添加询问,偏差= 1490.8527,pvalue = 1.1387992E-08 2.添加TMWBANK,Deviance = 1467.1415,Chi2Stat = 23.711203,Pvalue = 1.1192909E-06 3.添加余距,偏差= 1455.5715,Chi2stat = 11.569967那PValue = 0.00067025601 4. Adding EmpStatus, Deviance = 1447.3451, Chi2Stat = 8.2264038, PValue = 0.0041285257 5. Adding CustAge, Deviance = 1441.994, Chi2Stat = 5.3511754, PValue = 0.020708306 6. Adding ResStatus, Deviance = 1437.8756, Chi2Stat = 4.118404, PValue = 0.042419078 7. Adding OtherCC, Deviance = 1433.707, Chi2Stat = 4.1686018, PValue = 0.041179769 Generalized linear regression model: status ~ [Linear formula with 8 terms in 7 predictors] Distribution = Binomial Estimated Coefficients: Estimate SE tStat pValue ________ ________ ______ __________ (Intercept) 0.70239 0.064001 10.975 5.0538e-28 CustAge 0.60833 0.24932 2.44 0.014687 ResStatus 1.377 0.65272 2.1097 0.034888 EmpStatus 0.88565 0.293 3.0227 0.0025055 CustIncome 0.70164 0.21844 3.2121 0.0013179 TmWBank 1.1074 0.23271 4.7589 1.9464e-06 OtherCC 1.0883 0.52912 2.0569 0.039696 AMBalance 1.045 0.32214 3.2439 0.0011792 1200 observations, 1192 error degrees of freedom Dispersion: 1 Chi^2-statistic vs. constant model: 89.7, p-value = 1.4e-16

显示拟合模型中保留的预测器的未缩放点,并显示可能的最小和最大未缩放分数。

[POINDEDFO,MINSCORE,MAXSCORE] = DISPLAYPOINTS(SC)
PointsInfo =37×3表预测变点______________ __________________________ {'custage'} {'[-inf,33)'} -0.15894 {'caterage'} {'[33,37)'} -0.14036 {'cometers'} {'[37,40)'} -0.060323 {'custage'} {'[40,46)'} 0.046408 {'caterage'} {''[46,48)'} 0.21445 {'监狱'} {'[48,58)'} 0.23039{'custage'} {'[58,inf]'} 0.479 {'catere'} {'<缺失>'} nan {'resstatus'} {'租户'} -0.031252 {'resstatus'} {'resstatus'} {'resomed's'0.12696 {'Resstatus'} {'其他'} 0.37641 {'resstatus'} {'<缺少>'} nan {'empstatus'} {'未知'} -0.076317 {'empstatus'} {雇用的'} 0.31449 {'empstatus'} {'<缺失>'} nan {'custincome'} {'[-inf,29000)'} -0.45716⋮
MinScore=-1.3100
MaxScore=3.0726

通过设置名称值对参数BasePoints为TRUE,点信息表在第一行中单独报告基点。最小和最大可能分数不受此选项的影响。

sc = formatopoints(sc,'基点',真正的);[POINDEDFO,MINSCORE,MAXSCORE] = DISPLAYPOINTS(SC)
PointsInfo =38×3表预测变量_________________________________________________________________-inf,33)'} -0.25928 {'custage'} {'custage'} {'[33,37)'} -0.24071{'custage'} {'[37,40)'} -0.16066 {'catere'} {'[40,46)'} -0.053933 {'catere'} {'[46,48)'} 0.11411 {'监护人'} {'[48,58)'} 0.13005 {'catere'} {'[58,inf]'} 0.37866 {'catere'} {'<缺失>'} nan {'resstatus'} {'租户'}-0.13159 {'Resstatus'} {'归属主'} 0.026616 {'Resstatus'} {'其他'} {'其他'} 0.27607 {'resstatus'} {'<缺少>'} nan {'empstatus'} {'未知'} -0.17666{'empstatus'} {'雇用的'} 0.21415 {'empstatus'} {'<缺少>'} nan⋮
MinScore=-1.3100
MaxScore=3.0726

此示例演示如何使用格式点圆点。舍入通常在缩放后应用,否则,如果特定预测值的点都在小范围内,舍入可能会导致不同仓的舍入点相同。此外,对所有点进行舍入可能会略微改变最小和最大总分。

创建一个CreditsCorecard.对象使用CreditCardData.mat要加载的文件数据(使用Refaat 2011的数据集)。使用“IDVar”争论CreditsCorecard.表明“CustID”包含ID信息,不应包含为预测变量。

负载CreditCardDatasc = creditscorecard(数据,“IDVar”“CustID”);

对所有预测器执行自动装箱。

sc = autobinning (sc);

使用默认参数拟合线性回归模型。

sc = fitmodel (sc);
1.添加询问,偏差= 1490.8527,pvalue = 1.1387992E-08 2.添加TMWBANK,Deviance = 1467.1415,Chi2Stat = 23.711203,Pvalue = 1.1192909E-06 3.添加余距,偏差= 1455.5715,Chi2stat = 11.569967那PValue = 0.00067025601 4. Adding EmpStatus, Deviance = 1447.3451, Chi2Stat = 8.2264038, PValue = 0.0041285257 5. Adding CustAge, Deviance = 1441.994, Chi2Stat = 5.3511754, PValue = 0.020708306 6. Adding ResStatus, Deviance = 1437.8756, Chi2Stat = 4.118404, PValue = 0.042419078 7. Adding OtherCC, Deviance = 1433.707, Chi2Stat = 4.1686018, PValue = 0.041179769 Generalized linear regression model: status ~ [Linear formula with 8 terms in 7 predictors] Distribution = Binomial Estimated Coefficients: Estimate SE tStat pValue ________ ________ ______ __________ (Intercept) 0.70239 0.064001 10.975 5.0538e-28 CustAge 0.60833 0.24932 2.44 0.014687 ResStatus 1.377 0.65272 2.1097 0.034888 EmpStatus 0.88565 0.293 3.0227 0.0025055 CustIncome 0.70164 0.21844 3.2121 0.0013179 TmWBank 1.1074 0.23271 4.7589 1.9464e-06 OtherCC 1.0883 0.52912 2.0569 0.039696 AMBalance 1.045 0.32214 3.2439 0.0011792 1200 observations, 1192 error degrees of freedom Dispersion: 1 Chi^2-statistic vs. constant model: 89.7, p-value = 1.4e-16

显示拟合模型中保留的预测器的未缩放点,并显示可能的最小和最大未缩放分数。

[POINDEDFO,MINSCORE,MAXSCORE] = DISPLAYPOINTS(SC)
PointsInfo =37×3表预测变点______________ __________________________ {'custage'} {'[-inf,33)'} -0.15894 {'caterage'} {'[33,37)'} -0.14036 {'cometers'} {'[37,40)'} -0.060323 {'custage'} {'[40,46)'} 0.046408 {'caterage'} {''[46,48)'} 0.21445 {'监狱'} {'[48,58)'} 0.23039{'custage'} {'[58,inf]'} 0.479 {'catere'} {'<缺失>'} nan {'resstatus'} {'租户'} -0.031252 {'resstatus'} {'resstatus'} {'resomed's'0.12696 {'Resstatus'} {'其他'} 0.37641 {'resstatus'} {'<缺少>'} nan {'empstatus'} {'未知'} -0.076317 {'empstatus'} {雇用的'} 0.31449 {'empstatus'} {'<缺失>'} nan {'custincome'} {'[-inf,29000)'} -0.45716⋮
MinScore=-1.3100
MaxScore=3.0726

比例点,并显示点信息。默认情况下,不应用舍入。

sc = formatopoints(sc,'Wortstandbestscores'850年[300]);PointsInfo = displaypoints (sc)
PointsInfo =37×3表预测本点  ______________ ________________ ______ {' CustAge’}{[无穷,33)的46.396}{‘CustAge}{[33岁,37)的48.727}{‘CustAge}{[37、40)的58.772}{‘CustAge}{[40岁,46)的72.167}{‘CustAge}{[46岁,48)的93.256}{‘CustAge}{[48, 58)的95.256}{“CustAge”}{的[58岁的Inf]} 126.46{‘CustAge}{“失踪> <”}南{' ResStatus '}{'EmpStatus'} {'EmpStatus'} {'Employed'} 105.81 {'EmpStatus'} {'EmpStatus'} {'CustIncome'} {'[-Inf,29000)'}} 8.9706⋮

使用名称-值对参数要为所有点应用舍入,然后再次显示点信息。

sc = formatopoints(sc,'圆形的'“所有点”); PointsInfo=显示点(sc)
PointsInfo =37×3表预测本点  ______________ ________________ ______ {' CustAge’}{'[无穷,33)}46{‘CustAge}{'[33岁,37)}49{‘CustAge}{[37、40)的}59{‘CustAge}{[40岁,46)}72{‘CustAge}{[46岁,48)}93{‘CustAge}{[48, 58)的95}{‘CustAge}{的[58岁的Inf]} 126{‘CustAge}{“失踪> <”}南{‘ResStatus}{“租户”}62 {' ResStatus '}{'EmpStatus'} {'EmpStatus'} {'Unknown'} 57 {'EmpStatus'} {'Employed'} 106 {'EmpStatus'} {''} NaN {'CustIncome'} {'[-Inf,29000)'} 9⋮

这个例子显示舍入记分卡点数可以修改信用记分卡的原始风险排名。可以使用格式点使用的可选名称-值对参数“四舍五入”

信用评分根据风险对客户进行排名。如果给更好、风险更小的客户更高的分数,那么更高的分数必然对应更低的违约概率。的名称-值对参数时“四舍五入”,取决于for的值“四舍五入”,四舍五入的行为是:

  • “四舍五入”被设置为“没有”(默认选项),积分或分数不取整,风险排名与校准模型完全一致。

  • “四舍五入”被设置为'FinalScore',舍入仅适用于最终分数。在这种情况下:a)具有不同分数的客户(风险不同)可能具有相同的舍入分数。b)相同四舍五入分数的客户可能有不同的违约概率。c)具有较高圆形分数的客户将始终与具有较低分数的客户较低的概率。

  • “四舍五入”被设置为“所有点”,四舍五入应用于记分卡中的所有点数(所有箱子,所有预测器)。在这种情况下:a)不同得分(不同风险)的客户可能会有相同的四舍五入得分,或者他们的排名可能会颠倒过来(原始得分较低的客户可能会有较高的四舍五入得分)。b)相同四舍五入分数的客户可能有不同的违约概率。c)在某些情况下,四舍五入得分较高的客户可能有较高的违约概率低于得分较低的客户。

创建一个CreditsCorecard.

要演示舍入行为,首先创建CreditsCorecard.对象。

负载CreditCardDatasc = creditscorecard(数据,“IDVar”“CustID”'responsevar''地位');sc = autobinning (sc);sc = modififybins(sc,“缅因”'切口', 20000:5000:60000);sc = fitmodel (sc);
1.加上CustIncome, Deviance = 1487.9719, Chi2Stat = 35.469392, PValue = 2.5909009e-09添加TmWBank, Deviance = 1465.7998, Chi2Stat = 22.172089, PValue = 2.4927133e-06添加AMBalance, Deviance = 1455.206, Chi2Stat = 10.593833, PValue = 0.0011346548增加EmpStatus, Deviance = 1446.3918, Chi2Stat = 8.8142314, PValue = 0.0029889009加上CustAge, Deviance = 1440.6825, Chi2Stat = 5.709236, PValue = 0.016875883添加ResStatus, Deviance = 1436.1363, Chi2Stat = 4.5462043, PValue = 0.032991806广义线性回归模型:状态~[7个预测因子中8项的线性公式]分布=二项式估计系数:Estimate SE tStat pValue ________ ________ ______ __________ (Intercept) 0.70247 0.064046 10.968 5.4345e-28 CustAge 0.60579 0.24405 2.4822 0.013058 ResStatus 1.4463 0.65427 2.2105 0.02707 EmpStatus 0.90501 0.29262 3.0928 0.0019828 CustIncome 0.70869 0.20535 3.4512 0.00055815 TmWBank 1.0839 0.23244 4.6631 3.1145e-06 OtherCC 1.0906 0.52936 2.0602分散:1 Chi^2-statistic vs. constant model: 91.5, p-value = 6.12e-17

应用“四舍五入”选择权

应用这三种方法中的每一种“四舍五入”选项到CreditsCorecard.对象。

sc = formatopoints(sc,“PointsOddsAndPDO”, (500 2));%不舍入points1 = displaypoints(sc);[S1,P1] =得分(SC);defprob1 = probdefault(sc);sc = formatopoints(sc,'圆形的'“所有点”);% AllPoints舍入点S2=显示点(sc)[S2,P2]=得分(sc);defProb2=probdefault(sc);sc=格式点(sc,'圆形的''FinalScore');%'FinalScore'舍入points3 = displaypoints (sc);(S3, P3) =分数(sc);defProb3 = probdefault (sc);

比较“四舍五入”选择权

可视化默认概率与分数。

图持有散射(S1,1,'G*')散射(S2,DEFPROB2,'ro')分散(S3,3,“b +”)传奇('没有四舍五入'“所有点”'FinalScore')轴([388 394 0.695 0.705])Xlabel('信用评分') ylabel (违约概率的)标题(“违约概率和信用评分”网格)

检查每个项目的得分和总分“四舍五入”选项,表格格式。

Ind = [208 363 694 886];ProbDefault = defProb1(印第安纳州)
ProbDefault =4×10.6997 0.6989 0.6982 0.6972
%scorenorounding = s1(ind)PointsNounding=P1(ind,:);PointsNounding.Total=S1(ind)
要点=4×8表目前,我们使用的是一个词词类,目前,目前,目前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,目前,目前,目前,银行,其他,银行,银行,其他,银行,其他,目前,目前,目前,目前,目前,银行,银行,其他,银行,其他,其他,银行,其他,其他,银行,其他,其他,其他,其他,银行,其他,其他,其他,一一一个单词,一个单词,一个单词,一个单词,例如,例如,例如,例如,例如,例如,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,共,总体,总,总体,总体,总,总,总体,总体,总体,总体,总体,总体,总体,总体,总体,总体,总体,我们,我们,我们,我们,我们558.503 24.647 51.551 75.723 49.64 389.27 54.234 61.555 58.503 24.647 51.551 75.723 63.271 389.48 52.9 92.441 58.503 24.647 61.277 50.41649.64 389.82
%ScoreAllPoints=S2(ind)PointsAllPoints=P2(ind,:);点sallpoints.Total=S2(ind)
PointsAllPoints =4×8表银行其他账户收入总额uuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu
%scietfinalscore = s3(ind): PointsFinalScore = P3(印第安纳州);PointsFinalScore。总= S3(印第安纳州)
PointsFinalScore =4×8表CustAge ResStatus EmpStatus CustIncome TmWBank OtherCC AMBalance共_______ _________ _________ __________ _______ _______ _________ _____ 52.9 61.555 58.503 24.647 51.551 50.416 89.4 389 67.65 61.555 58.503 24.647 51.551 75.723 49.64 389 54.234 61.555 58.503 24.647 51.551 75.723 63.271 389 52.9 92.441 58.503 24.647 61.277 50.416 49.64 390

原本的CreditsCorecard.模型,没有舍入,用逻辑回归来校准数据。排名和概率有统计基础。

但是舍入有效地修改了CreditsCorecard.模型当只有最后的分数是四舍五入时,这会导致四舍五入分数中出现一些“联系”,但至少是风险等级分数被保留(因为如果S1<=S2然后回合(S1)<=圆形(S2)).

但是,当您将所有分数四舍五入时,分数可能会偶然获得额外的分数。例如,在表中的第二行(原始数据的第363行),所有预测值的点都向上舍入了几乎0.5.原来的分数是389.27.最后的四舍五入就可以了389.然而,舍入所有的点392,这比舍入的最终得分高出三分。

此示例演示如何使用格式点对缺失或超出范围的数据进行评分。当对数据进行评分时,一些观察结果可能会丢失(, 要么未定义的)或者超出范围。您需要决定是否将点分配给这些案例。使用名称-值对参数失踪这样做。

创建一个CreditsCorecard.对象使用CreditCardData.mat文件加载数据(使用来自Refaat 2011的数据集)。使用“IDVar”争论CreditsCorecard.表明“CustID”包含ID信息,不应包含为预测变量。

负载CreditCardDatasc = creditscorecard(数据,“IDVar”“CustID”);

对所有预测器执行自动装箱。

sc = autobinning (sc);

表示允许的最小值“保管”是零。这使得年龄无效或超出范围的任何负值。

sc = modififybins(sc,“保管”“MinValue”,0);

使用默认参数拟合线性回归模型。

sc = fitmodel (sc);
1.添加询问,偏差= 1490.8527,pvalue = 1.1387992E-08 2.添加TMWBANK,Deviance = 1467.1415,Chi2Stat = 23.711203,Pvalue = 1.1192909E-06 3.添加余距,偏差= 1455.5715,Chi2stat = 11.569967那PValue = 0.00067025601 4. Adding EmpStatus, Deviance = 1447.3451, Chi2Stat = 8.2264038, PValue = 0.0041285257 5. Adding CustAge, Deviance = 1441.994, Chi2Stat = 5.3511754, PValue = 0.020708306 6. Adding ResStatus, Deviance = 1437.8756, Chi2Stat = 4.118404, PValue = 0.042419078 7. Adding OtherCC, Deviance = 1433.707, Chi2Stat = 4.1686018, PValue = 0.041179769 Generalized linear regression model: status ~ [Linear formula with 8 terms in 7 predictors] Distribution = Binomial Estimated Coefficients: Estimate SE tStat pValue ________ ________ ______ __________ (Intercept) 0.70239 0.064001 10.975 5.0538e-28 CustAge 0.60833 0.24932 2.44 0.014687 ResStatus 1.377 0.65272 2.1097 0.034888 EmpStatus 0.88565 0.293 3.0227 0.0025055 CustIncome 0.70164 0.21844 3.2121 0.0013179 TmWBank 1.1074 0.23271 4.7589 1.9464e-06 OtherCC 1.0883 0.52912 2.0569 0.039696 AMBalance 1.045 0.32214 3.2439 0.0011792 1200 observations, 1192 error degrees of freedom Dispersion: 1 Chi^2-statistic vs. constant model: 89.7, p-value = 1.4e-16

假设在您想要评分的数据中有缺失或超出范围的观测值。注意,默认情况下,分配给缺失值的分数是

%设置具有丢失和超出范围数据的数据集以用于插图目的: newdata =数据(1:5);newdata.CustAge(1) =南;%失踪newdata.Custage(2)= -100;% 无效的newdata.ResStatus (3) =' <定义> '%失踪newdata.resstatus(4)='房子'% 无效的disp(newdata)
CustId监护tmataddress resstatus empstatus custincome tmwbank其他cc ambalance userrate状态______________________________________________ ____ ____ ___ _ ___100 22家主人使用52000 25是1161.6 0.24 0 3 47 30 <未定义>雇用37000 61否877.23 0.29 0 4 50 75房屋采用53000 20是157.37 0.08 0 5 68 56家主人使用53000 14是561.84 0.11 0
[分数,分数]=分数(sc,新数据);显示(分数)
南南南1.4535
显示(点数)
CustAge ResStatus EmpStatus CustIncome TmWBank OtherCC AMBalance _______ _________ _________ __________ _________ ________ _________ NaN -0.031252 - 0.07617 0.43693 0.39607 0.15842 -0.017472 0.12696 0.31449 0.43693 -0.033752 0.15842 -0.017472 0.21445 NaN 0.31449 0.081611 0.39607 -0.19168 -0.017472 0.230390.35551 0.479 0.12696 0.31449 0.43693 -0.044811 0.15842 -0.017472

使用名称-值对参数失踪取代点对应于零权力证据(WOE)的点。

sc = formatopoints(sc,“失踪”“零灾难”);[分数,分数]=分数(sc,新数据);显示(分数)
0.9667 1.0859 0.8978 1.5513 1.4535
显示(点数)
目前,我们的研究现状,目前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,当前,目前,目前,目前,银行,其他,银行,其他,其他,目前,目前,目前,目前,银行,其他,其他,银行,其他,其他,其他,其他,其他,其他,银行,其他,其他,其他,其他,其他,其他,其他,以及以及,以及,以及,以及其他,银行,其他,以及其他,以及其他,以及,以及其他,以及,以及,以及其他,银行,其他,其他,以及其他,以及其他,以及,以及其他,以及其他,以及其他,银行,银行,以及其他,以及,以及其他,以及,以及,以及其他,以及其他,以及其他,以及,以及,以及其他,以及,以及,以及其他,以及,以及,以及,以及,以及,96 0.31449 0.43693-0.033752 0.15842-0.017472 0.21445 0.10034 0.31449 0.081611 0.39607-0.19168-0.017472 0.23039 0.10034 0.31449 0.43693-0.044811 0.15842 0.35551 0.479 0.12696 0.31449 0.43693 -0.044811 0.15842 -0.017472

或者,使用名称-值对参数失踪用具有缺失值的预测值的最小点替换缺失值。

sc = formatopoints(sc,“失踪”“MinPoints”);[分数,分数]=分数(sc,新数据);显示(分数)
0.7074 0.8266 0.7662 1.4197 1.4535
显示(点数)
CustAge ResStatus EmpStatus CustIncome TmWBank OtherCC AMBalance ________ _________ _________ __________ _________ ________ _________ -0.15894 -0.031252 -0.076317 0.43693 0.39607 0.15842 -0.017472 -0.15894 0.12696 0.31449 0.43693 0.15842 -0.033752 -0.017472 0.21445 -0.031252 0.31449 0.081611 0.39607 -0.19168 -0.017472 0.23039 -0.031252 0.31449 0.43693-0.044811 0.15842 0.35551 0.479 0.12696 0.31449 0.43693 -0.044811 0.15842 -0.017472

作为第三个替代方案,使用名称值对参数失踪替换具有缺失值的预测器的最大点的缺失值。

sc = formatopoints(sc,“失踪”“MaxPoints”);[分数,分数]=分数(sc,新数据);显示(分数)
1.3454 1.4646 1.1739 1.8273 1.4535
显示(点数)
CustAge ResStatus EmpStatus CustIncome TmWBank OtherCC AMBalance _______ _________ _________ __________ _________ ________ _________ 0.479 -0.031252 -0.076317 0.43693 0.39607 0.15842 -0.017472 0.479 0.12696 0.31449 0.43693 0.15842 -0.033752 -0.017472 0.21445 0.37641 0.31449 0.081611 0.39607 -0.19168 -0.017472 0.23039 0.37641 0.31449 0.43693 0.15842 -0.044811 0.355510.479 0.12696 0.31449 0.43693 -0.044811 0.15842 -0.017472

验证分配给缺失数据的最小点和最大点是否对应于相应预测值的最小点和最大点。要点“保管”在点信息表的前七行中报告。为了'resstatus'该点处于行8到10。

diotninfo = displaypoints(sc);指点(1:7,:)
ans =7×3表预测器垃圾点___________ ____________ __________ {'custage'} {'[0,33)'} -0.15894 {'custage'} {'[33,37)'} -0.14036 {'cometage'} {'[37,40)'} -0.060323 {'custage'} {'[40,46)'} 0.046408} 0.046408 {'custage'} {'[46,48)'} 0.21445 {'caterage'} {'[48,58)'} 0.23039 {'监护'} {'[58,INF]'} 0.479
min (PointsInfo.Points (1:7))
ans = -0.1589
max (PointsInfo.Points (1:7))
ANS = 0.4790.
PointsInfo (8,:)
ans =3×3表本点的预测值{0.479{住户}-0.031252{住户}0.12696
min (PointsInfo.Points (8))
ans = -0.0313
max (PointsInfo.Points (8))
ANS = 0.4790.

这个例子描述了当'binmissingdata'选项设置为真正的

  • 在培训集中缺少数据的预测器具有明确的垃圾箱<缺失>在最终记分卡中有相应的分数。这些点是根据该事件的证据权重(WOE)值计算得出的<缺失>Bin和logistic模型系数。出于记分的目的,这些点被赋给缺失的值和超出范围的值。

  • 在培训集中没有缺少数据的预测器没有<缺失>垃圾箱,因此可以从训练数据估算没有祸患。默认情况下,丢失和超出范围值的点设置为,这导致得分运行时分数. 对于没有明确定义的预测值<缺失>bin,使用name-value参数“失踪”格式点表示如何处理缺少数据以获得评分目的。

创建一个CreditsCorecard.对象使用CreditCardData.mat要加载的文件dataMissing缺少值。

负载CreditCardData.mat头(dataMissing, 5)
ans =5×11表CustID CustAge TmAtAddress ResStatus EmpStatus CustIncome TmWBank OtherCC AMBalance UtilRate地位  ______ _______ ___________ ___________ _________ __________ _______ _______ _________ ________ ______ 53 62 <定义>未知50000 55是的1055.9 - 0.22 0 2 61 22业主雇佣52000 25是的1161.6 - 0.24 0 3 47 30租户雇佣了37000 61877.23 0.29 0 4 NaN 75自雇业主53000 20是157.37 0.08 0 5 68 56自雇业主53000 14是561.84 0.11 0
fprintf('行数:%d \ n',高度(Datamissing))
行数:1200行
fprintf('缺少值的数量汇编:%d \ n'总和(ismissing (dataMissing.CustAge)))
CustAge: 30
fprintf('缺少值的数目状态:%d\n',总和(ismissing(dataMissing.ResStatus)))
ResStatus: 40

使用CreditsCorecard.使用name-value参数'binmissingdata'设置为真正的将丢失的数字或分类数据存储在单独的存储箱中。应用自动装箱。

sc = creditscorecard (dataMissing,“IDVar”“CustID”'binmissingdata',真正的);sc = autobinning (sc);disp (sc)
creditscorecard with properties: GoodLabel: 0 ResponseVar: 'status' WeightsVar: " VarNames: {1x11 cell} NumericPredictors: {1x6 cell} CategoricalPredictors: {'ResStatus' 'EmpStatus' 'OtherCC'} BinMissingData: 1 IDVar: 'CustID' PredictorVars: {1x9 cell} Data: [1200x11 table]

设置最小值为零保管缅因一.这样,任何负年龄或收入信息都将失效或“超出范围”。出于评分目的,超出范围的值与缺失值给出相同的分数。

sc = modififybins(sc,“保管”“MinValue”,0);sc = modififybins(sc,“缅因”“MinValue”,0);

显示和绘制数字数据的BIN信息“保管”这包括在一个单独的标签箱中丢失的数据<缺失>

[bi,cp]=bininfo(sc,“保管”);disp (bi)
垃圾箱好的赔率越来越好悲伤______________________________________________ {'[0,33)'} 69 52 1.3269 -0.42156 0.018993 {'[33,37)'} 63 45 1.4 -0.36795 0.012839 {'[37,40)'72 47 1.5319 -0.2779 0.0079824 {'[40,46)'} 172 89 1.9326 -0.04556 0.04556 0.04556 0.0004549 {'[46,48)'} 59 25 22.36 0.121101012190104550 {'[48,51)'} 99 41 2.4146 0.121142 0.121190 0.12112 0.04556 0.30 2.36 0.36 0.4112 0.121190 0.121120.04556 0.04556 0.04556 0.0004549 {'[46,48)'} 59 25。{'[51,58)'} 157 62 2.5323 0.22469 0.22469 0.22469 0.22469 0.22469 0.0088407 {[58,INF]'} 93 25 3.72 0.60931 0.032198 {'<缺失>'} 19 11 1.7273 -0.15787 0.00063885787 0.063885 {'总数'} 803 397 2.0227南0.087112
plotbins (sc,“保管”

显示和打印分类数据的仓位信息'resstatus'这包括在一个单独的标签箱中丢失的数据<缺失>

(bi, cg) = bininfo (sc,'resstatus');disp (bi)
垃圾箱好赔率悲伤___________ _______ ______________________________________________________________________________} 27 13 2.0769 0.026469 2.3248E-05 {'总计'} 803 397 2.0227 NaN 0.0092627
plotbins (sc,'resstatus'

对于“保管”'resstatus'预测,缺少数据(s和<定义>),分箱过程估计出的WOE值为-0.15787.0.026469分别为这些预测器中的缺失数据,如上所示。

为了empstatus.缅因一对于缺失值没有显式箱,因为培训数据对这些预测器没有缺少值。

bi = bininfo (sc,'empstatus');disp (bi)
垃圾箱好赔率WOO infovedue ______________________________________________0.0227 0.0227 397 2.0227 397 2.0227 4.03/02033/0.048
bi = bininfo (sc,“缅因”);disp (bi)
宾好差赔率WOE INFOVALUE _________________ ____ ___ _______ _________ __________ { '[0,29000)'} 53 58 0.91379 -0.79457 0.06364 { '[29000,33000)'} 74 49 1.5102 -0.29217 0.0091366 { '[33000,35000)'} 68 36 1.8889 -0.06843 0.00041042 {'[35000,40000)'} 193 98 1.9694 -0.026696 0.00017359 {'[40000,42000)'} 68 34 2 -0.011271 1.0819E-05 {[42000,47000)'} 16466 2.4848 0.20579 0.0078175 { '[47000,天道酬勤]'} 183 56 3.2679 0.47972 0.041657 { '总计'} 803 397 2.0227的NaN 0.12285

使用Fitmodel.利用证据权重(WOE)数据拟合逻辑回归模型。Fitmodel.在内部将所有预测变量转换为WOE值,使用具有自动分衬过程的箱子。Fitmodel.然后使用逐步方法(默认)拟合逻辑回归模型。对于缺少数据的预测器,有一个明确的<缺失>bin,并根据数据计算出相应的WOE值。当使用Fitmodel.,则为<缺失>在进行WOE转换时应用垃圾箱。

(sc, mdl) = fitmodel (sc);
1.添加CustIncome,偏差=1490.8527,Chi2Stat=32.588614,PValue=1.1387992e-08 2.添加TmWBank,偏差=1467.1415,Chi2Stat=23.711203,PValue=1.1192909e-06 3.添加AMBalance,偏差=1455.5715,Chi2Stat=11.569967,PValue=0.000670256014.添加EmpStatus,偏差=1447.3451,Chi2Stat=8.2264038,PValue=0.0041285257 5.加上保管,偏差=1442.8477,Chi2Stat=4.4974731,PValue=0.033944979 6.加上ResStatus,偏差=1438.9783,Chi2Stat=3.86941,PValue=0.049173805 7.加上其他CC,偏差=1434.9751,Chi2Stat=4.0031966,PValue=0.045414057广义线性回归模型:状态~[7个预测因子中有8项的线性公式]分布=二项式估计系数:估计值为PValue _________________________________________(截距)0.709 0.709 0.063959 10.989EmpStatus 0.88373 0.2929 3.0172 0.002551 CustIncome 0.73535 0.2159 3.406 0.00065929 TmWBank 1.1065 0.23267 4.7556 1.9783e-06其他CC 1.0648 0.52826 2.0156 0.043841 AMBalance 1.0446 0.32197 3.2443 0.0011775 1200个观测值,1192个误差自由度离散:1 Chi^2-statistic vs.常数模型:88.5,p值=2.55e-16

使用“点,赔率,指向赔率(PDO)”方法缩放记分卡点数“PointsOddsAndPDO”的观点格式点. 假设你想要一个500分的分数的赔率为2(好的概率是坏的概率的两倍),并且赔率每50分翻倍(因此550分的赔率为4)。

显示记分卡,显示拟合模型中保留的预测值的缩放点。

sc = formatopoints(sc,“PointsOddsAndPDO”, (500 2));PointsInfo = displaypoints (sc)
PointsInfo =38×3表UUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUU卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢卢{'[48,51'}78.86{'CustAge'}{'[51,58'}80.83{'CustAge'}{'[58,Inf]}96.76{custatus}{missing>}64.984{ResStatus}{Tenant'}62.138{ResStatus'}{Home Owner'}73.248{ResStatus'}{Other'}90.828{ResStatus'}{missing>}74.125{EmpStatus'}{Unknown'}58.807{EmpStatus'}{EmpStatus'}{86.937}{EmpStatus}{missing}⋮

请注意<缺失>本为保管resstatus明确显示(如64.983674.1250分别)。这些点是根据该地区的WOE值计算出来的<缺失>垃圾箱和逻辑模型系数。

对于在训练集中没有缺失数据的预测值,没有明确的定义<缺失>箱子默认情况下,这些点被设置为因为缺少数据,他们会导致运行时分数. 对于没有明确定义的预测值<缺失>bin,使用name-value参数“失踪”格式点表示如何处理缺少数据以获得评分目的。

出于说明的目的,从原始数据中取出几行作为测试数据,并介绍一些缺少的数据。还介绍了一些无效或超出范围的值。对于数字数据,允许的最小值(或高于最大值)的值被视为无效,例如年龄的负值(召回“MinValue”早些时候设置为0.为了保管缅因一)。对于分类数据,无效值是在记分卡中未明确包含的类别,例如,未以前映射到记分卡类别的住宅状态,例如“House”,或诸如“ABC123”之类的无意义的字符串。

tdata = datamissing(11:18,mdl.predictornames);%只保留模型中的预测器%设置一些缺失的值tdata.CustAge(1) =南;tdata.ResStatus (2) =' <定义> ';tdata.empstatus(3)=' <定义> ';tdata.CustIncome(4) =南;%设置一些无效值tdata.CustAge (5) = -100;tdata.ResStatus (6) ='房子';tdata.EmpStatus (7) =“自由职业者”;TDATA.CUSTINCOME(8)= -1;DISP(TDATA)
保管Resstatus empstatus custutus tmwbank其他cc ambalanc ant______ ______________________ _______ _______ ________ ____ _ _ _坦租户未知34000 44是119.8 48 <未定义>未知44000 14是403.62 65家主人<未定义> 48000 6否111.88 44其他未知南35否436.41 -100其他采用46000 16是162.21 33房屋采用36000 36是845.02 39租户自由职业者34000 40是756.26 24家庭主任雇用-1 19是449.61

对新数据进行评分,并查看如何为缺失打分保管resstatus,因为我们有一个有点明确的垃圾箱<缺失>. 然而,对于empstatus.缅因一分数函数将点设置为

(分数,分)=分数(sc tdata);DISP(得分)
481.2231 520.8353南纳551.7922 487.9588南楠
显示(点数)
CustAge ResStatus EmpStatus CustIncome TmWBank OtherCC AMBalance _______ _________ _________ __________ _______ _______ _________ 64.984 62.138 58.807 67.893 61.858 75.622 89.922 78.86 74.125 58.807 82.439 61.061 75.622 89.922 96.76 73.248 NaN的96.969 51.132 50.914 89.922 69.636 90.828 58.807 NaN的61.858 50.914 89.922 64.984 90.828 86.937 82.439 61.061 75.622 89.922 56.28274.125 86.937 70.107 61.858 75.622 63.028 60.012 62.138 NAN 67.893 61.858 75.622 63.028 54.062 73.028 54.062 73.028 86.937 NAN 61.061 75.622 89.922

使用名称值参数“失踪”格式点选择如何为没有明确定义的预测值的缺失值指定点<缺失>箱子在本例中,使用“MinPoints”选择“失踪”争论。最低点empstatus.在上面显示的记分卡中58.8072.,对于缅因一最小值点是29.3753

sc = formatopoints(sc,“失踪”“MinPoints”);(分数,分)=分数(sc tdata);DISP(得分)
481.2231 520.8353 517.7532 451.3405 551.7922 487.9588 479.3577 470.2267
显示(点数)
CustAge ResStatus EmpStatus CustIncome TmWBank OtherCC AMBalance _______ _________ _________ __________ _______ _______ _________ 64.984 62.138 58.807 67.893 61.858 75.622 89.922 78.86 74.125 58.807 82.439 61.061 75.622 89.922 96.76 73.248 58.807 96.969 51.132 50.914 89.922 69.636 90.828 58.807 29.375 61.858 50.914 89.922 64.984 90.828 86.937 82.439 61.061 75.622 89.922 56.28274.125 86.937 70.107 61.858 75.622 63.028 60.012 62.138 58.807 67.893 61.858 75.622 63.028 54.062 73.248 86.937 29.375 61.061 75.622 89.922

输入参数

全部折叠

信用记分卡模型,指定为CreditsCorecard.对象。使用CreditsCorecard.创建CreditsCorecard.对象。

名称-值对的观点

指定可选的逗号分隔的对名称,值参数。名称参数名和价值为对应值。名称必须出现在引号内。可以以任意顺序指定多个名称和值对参数name1,value1,...,namen,valuen

例子:sc = formatpoints(sc,'BasePoints',true,'Round','AllPoints','WorstAndBestScores',[100,700])

笔记

ShiftAndSlope点SODDSANDPDO,WorstAndBestScores是缩放方法,一次只能使用其中一个名称-值对参数。其他三个名称-值对参数(BasePoints失踪,)不是缩放方法,可以同时使用或与三种缩放方法中的任何一种一起使用。

用于分隔基点的指示器,指定为逗号分隔对,由'基点'和逻辑标量。如果真正的,记分卡明确分隔基点。如果,基点分布在所有的变量中CreditsCorecard.对象。

数据类型:字符

评分时分配给缺失或超出范围信息的分数指示符,指定为逗号分隔的对,包括“失踪”和一个具有值的字符向量NoScoreZeroWOE迈克斯, 要么MaxPoints,其中:

  • NoScore- 缺失和超出超出数据,未分配分配,点设置为.此外,总得分设置为

  • ZeroWOE-缺失或超出范围的数据被分配为零证据权重(WOE)值。

  • 迈克斯-缺失或超出范围的数据为预测器获得最小可能点数。如果分数越高越好,分数就会被扣分。

  • MaxPoints- 缺失或超出范围的数据获得该预测器的最大可能点。如果较低的分数更好,这会惩罚得分。

    笔记

    当使用CreditsCorecard.名称值参数'binmissingdata'真正的,用于数字和分类预测器的缺失数据在标记为单独的垃圾箱中填充<缺失>.这<缺失>BIN仅包含预测器的缺失值,并且不包含预测器的无效或超出范围的值。

数据类型:字符

指示符是否要舍入分数或分数,指定为逗号分隔对组成'圆形的'和一个值的字符向量“所有点”'FinalScore'要么“没有”,其中:

  • 没有一个-没有四舍五入应用。

  • AllPoints- 在加入总分之前,对每个预测器的点施加舍入。

  • 终结- 仅在舍入的分数(舍入在附加点后,舍入)。

有关更多信息和使用示例'圆形的'名称-值对参数,请参阅舍入概率和缺省概率

数据类型:字符

信用记分卡的偏移和坡度缩放参数的指示器,指定为逗号分隔对,由'shiftandslope'和一个带有两个元素的数字数组(转变,斜率)不能为零。这ShiftAndSlope值用于评分模型。

笔记

ShiftAndSlope点SODDSANDPDO,WorstAndBestScores是缩放方法,一次只能使用其中一个名称-值对参数。其他三个名称-值对参数(BasePoints失踪,)不是缩放方法,可以同时使用或与三种缩放方法中的任何一种一起使用。

删除先前的缩放并恢复为未划算的分数,设置ShiftAndSlope[0, 1]

数据类型:

目标点指标()对于给定的赔率水平(几率)和所需数量的点数达到赔率(PDO),指定为逗号分隔的配对组成“PointsOddsAndPDO”和一个有三个元素的数字数组(点,几率,PDO)几率必须是一个正数。这点SODDSANDPDO数值用于为评分模型找到缩放参数。

笔记

积分使胜算加倍(PDO)可能是积极的或消极的,这取决于得分越高是否意味着风险越低,反之亦然。

ShiftAndSlope点SODDSANDPDO,WorstAndBestScores是缩放方法,一次只能使用其中一个名称-值对参数。其他三个名称-值对参数(BasePoints失踪,)不是缩放方法,可以同时使用或与三种缩放方法中的任何一种一起使用。

删除先前的缩放并恢复为未划算的分数,设置ShiftAndSlope[0, 1]

数据类型:

记分卡中最差(最高风险)和最好(最低风险)得分的指示符,指定为逗号分隔的对,其中包括'Wortstandbestscores'和一个带有两个元素的数字数组[WorstScore, BestScore]谷仓BestScore必须是不同的值。这些WorstAndBestScores数值用于为评分模型找到缩放参数。

笔记

谷仓表示风险最高的得分,其值可以低于或高于“最佳”得分。换句话说,“最低”分可能是“最差”分,也可能是“最好”分,这取决于所需的评分标准。

ShiftAndSlope点SODDSANDPDO,WorstAndBestScores是缩放方法,一次只能使用其中一个名称-值对参数。其他三个名称-值对参数(BasePoints失踪,)不是缩放方法,可以同时使用或与三种缩放方法中的任何一种一起使用。

删除先前的缩放并恢复为未划算的分数,设置ShiftAndSlope[0, 1]

数据类型:

输出参数

全部折叠

信用记分卡模型作为更新返回CreditsCorecard.对象有关使用的详细信息CreditsCorecard.对象,参见CreditsCorecard.

算法

个人的分数一世由公式给出

分数(i) = Shift +坡* (b0 + b1 * WOE1 (i) + b2 * WOE2(我)+…+ bp * WOEp(我))

在哪里BJ.是系数j模型中的变量,和祸患j一世)是证据权重(WOE)的价值一世对应于j变量变量。转移下面进一步讨论的缩放常数。可以控制缩放常量格式点

如果数据为单个一世一世- 给定数据集的行,计算分数,数据(一世j)使用现有的啤酒地图箱,并转换成相应的证据价值wj一世). 使用模型系数,未标度分数计算如下:

s = b0 + b1*WOE1(i) +…+ bp * WOEp(我)。

为简单起见,在上面的描述中假设j模型中的-th变量是j-数据输入中的第列,但通常情况下,给定数据集中变量的顺序不必与模型中变量的顺序匹配,并且数据集中可能有模型中未使用的其他变量。

格式选项可以使用格式点. 单独报告基点时(请参见格式点范围BasePoints),基点由

基点= shift +斜率* b0,
积分是j-th预测指标,一世-th行是给出的
点_ji=斜率*(bj*WOEj(i)))。

默认情况下,没有单独报告基点,在这种情况下

Points_ji = (Shift + Slope*b0)/p + Slope*(bj*WOEj(i)),
在哪里P.是记分卡模型中的预测数。

默认情况下,没有将舍入应用于该点分数函数(没有一个)。如果被设置为AllPoints使用格式点,然后是个人的分数一世为变量j

如果舍入是“AllPoints”:圆形(points_ji)
如果基点是单独报告的,那么也是四舍五入的。这将产生每个预测器的整数值点,因此也会产生整数值分数。如果被设置为终结使用格式点,然后每个预测器的点不圆,并且只有最终得分是圆形的
分数如果舍入为“FinalScore”:圆形(分数(i))。

关于缩放参数转移参数,参数可以直接使用ShiftAndSlope参数的格式点.或者,您可以使用格式点参数WorstAndBestScores.在这种情况下,参数转移通过解决系统在内部发现

shift +斜率* smin = ortscore,shift +斜率* smax = bestscore,
在哪里谷仓BestScore是第一个和第二个元素格式点参数WorstAndBestScores斯明Smax.是最低和最大可能的未划算分数:
smin=b0+min(b1*1)++最小值(bp*WOEp),smax=b0+max(b1*WOE1)++最大值(bp*WOEp)。

第三种规模分数是点SODDSANDPDO参数in.格式点.在这种情况下,假设未划分的分数S.给出一行的概率,然后转移通过解决以下系统找到参数

点数+ PDO = Shift + Slope*log(2*Odds)
在哪里几率,PDO(“点数加倍几率”)是第一个、第二个和第三个元素点SODDSANDPDO参数

当给定数据集有缺失或超出范围的值数据时(一世j),预测值的点数j,个人一世,设置为默认情况下,这将导致该行丢失分数(a分数)。使用失踪参数格式点,您可以修改此行为,并将相应的证据(WOE)值设置为零,或将点设置为最小点,或者为该预测器的最大点设置。

参考

[1] 安德森,R。信用评分工具包。牛津大学出版社,2007。

[2] Refaat, M。信用风险记分卡:使用SAS开发和实现。lulu.com, 2011。

介绍了R2014b