probdefault

给定数据集的默认可能性

描述

示例

pd= probdefault (SC计算违约的概率SC,用来建立creditscorecard对象。

示例

pd= probdefault (SC数据计算使用可选参数指定的给定数据集的默认概率数据

默认情况下,该数据用于构建creditscorecard对象被使用。您也可以提供输入数据,对其应用违约概率的相同的计算。

例子

崩溃

创建A.creditscorecard对象使用CreditCardData.mat文件加载数据(使用从2011年Refaat数据集)。

加载CreditCardDataSC = creditscorecard(数据,'IDVar''Custid'
SC = creditscorecard与属性:GoodLabel:0 ResponseVar: '状态' WeightsVar: '' VarNames:{1x11细胞} NumericPredictors:{1X6细胞} CategoricalPredictors:{ 'ResStatus' 'EmpStatus' 'OtherCC'} BinMissingData:0 IDVar:“的CustID'PredictorVars:{1X9细胞}数据:[1200x11表]

使用默认设置进行自动合并。默认情况下,autobinning.使用单调算法。

SC = autobinning(SC);

拟合模型。

sc = fitmodel(sc);
1.添加CustIncome,越轨= 1490.8527,Chi2Stat = 32.588614,p值= 1.1387992e-08 2.添加TmWBank,越轨= 1467.1415,Chi2Stat = 23.711203,p值= 1.1192909e-06 3.添加AMBalance,越轨= 1455.5715,Chi2Stat = 11.569967那PValue = 0.00067025601 4. Adding EmpStatus, Deviance = 1447.3451, Chi2Stat = 8.2264038, PValue = 0.0041285257 5. Adding CustAge, Deviance = 1441.994, Chi2Stat = 5.3511754, PValue = 0.020708306 6. Adding ResStatus, Deviance = 1437.8756, Chi2Stat = 4.118404, PValue = 0.042419078 7. Adding OtherCC, Deviance = 1433.707, Chi2Stat = 4.1686018, PValue = 0.041179769 Generalized linear regression model: status ~ [Linear formula with 8 terms in 7 predictors] Distribution = Binomial Estimated Coefficients: Estimate SE tStat pValue ________ ________ ______ __________ (Intercept) 0.70239 0.064001 10.975 5.0538e-28 CustAge 0.60833 0.24932 2.44 0.014687 ResStatus 1.377 0.65272 2.1097 0.034888 EmpStatus 0.88565 0.293 3.0227 0.0025055 CustIncome 0.70164 0.21844 3.2121 0.0013179 TmWBank 1.1074 0.23271 4.7589 1.9464e-06 OtherCC 1.0883 0.52912 2.0569 0.039696 AMBalance 1.045 0.32214 3.2439 0.0011792 1200 observations, 1192 error degrees of freedom Dispersion: 1 Chi^2-statistic vs. constant model: 89.7, p-value = 1.4e-16

计算违约概率。

PD = probdefault(SC);DISP(PD(1:15,:))
0.2503 0.1878 0.3173 0.1711 0.1895 0.1307 0.5218 0.2848 0.2612 0.3047 0.3418 0.2237 0.2793 0.3615 0.1653

这个例子说明了当丢失的数据点的两个分配'BinMissingData'选项设置为真正的,以及相应的违约概率的计算。

  • 训练集中有缺失数据的预测器有一个显式的容器< >失踪在最后的记分卡对应的点。这些点是从该重的证据(WOE)值来计算< >失踪Bin和logistic模型系数。出于记分的目的,这些分数被分配给缺失的值和超出范围的值,最后的分数被映射到使用时默认值的概率probdefault

  • 在训练集不丢失数据的预测没有< >失踪垃圾桶,因此没有WOE可以从训练数据估计。默认情况下,缺少点和超出范围的值设置为,这就导致了一系列的运行时比分.对于没有明确的预测< >失踪斌,使用的名称,参数值“丢失”in.formatpoints以指示如何处理缺失的数据进行评分。最后的分数将被映射到使用时的默认概率probdefault

创建A.creditscorecard对象使用CreditCardData.mat文件加载dataMissing与缺失值。

加载CreditCardData.mat头(Datamissing,5)
ANS =5×11表的CustID CustAge TmAtAddress ResStatus EmpStatus CustIncome TmWBank OtherCC AMBalance UtilRate状态______ _______ ___________ ___________ _________ __________ _______ _______ _________ ________ ______ 1 53 62 <未定义>未知50000 55是1055.9 0.22 0 2 61 22家庭业主雇员52000 25是1161.6 0.24 0 3 47 30租户业37000 61没有877.23 0.29 0 4 75的NaN房主业53000 20是157.37 0.08 0 5 68 56房主业53000 14是561.84 0.11 0

使用creditscorecard使用名称值参数'BinMissingData'设定为真正的以斌在一个单独的箱子失踪的数字或分类数据。应用自动装箱。

SC = creditscorecard(dataMissing,'IDVar''Custid''BinMissingData',真的);SC = autobinning(SC);DISP(SC)
creditscorecard与属性:GoodLabel:0 ResponseVar: '状态' WeightsVar: '' VarNames:{1x11细胞} NumericPredictors:{1X6细胞} CategoricalPredictors:{ 'ResStatus' 'EmpStatus' 'OtherCC'} BinMissingData:1个IDVar: '的CustID' PredictorVars:{1X9细胞}数据:[1200x11表]

设置最小值为0.对于CustAgeCustIncome.有了这个,任何负面的年龄或收入的信息变得无效或“超出范围”。对于计分和默认计算的概率,超出范围的值被给予相同的点作为缺失值。

sc = modififybins(sc,'CustAge''MINVALUE',0);sc = modififybins(sc,'CustIncome''MINVALUE',0);

显示bin信息的数字数据'CustAge'这包括在一个单独的标签箱中丢失的数据< >失踪

bi = bininfo (sc,'CustAge');disp (bi)
本好不好悲哀InfoValue几率  _____________ ____ ___ ______ ________ __________ {'[ 0, 33) 52} 69 1.3269 -0.42156 0.018993{[33岁,37)}63年45 1.4 -0.36795 0.012839{[37、40)}72年47 1.5319 -0.2779 0.0079824{'[40岁,46)}172 89 1.9326 -0.04556 0.0004549{'[46岁,48)}59 25 2.36 0.15424 0.0016199{[48,51)}99年41 2.4146 0.17713 0.0035449{'[51,58)'} 157 62 2.5323 0.22469 0.0088407 {'[58,Inf]'} 93 25 3.72 0.60931 0.032198 {''} 19 11 1.7273 -0.15787 0.00063885 {' total '} 803 397 2.0227 NaN 0.087112

显示垃圾箱信息,用于分类数据'ResStatus'这包括在一个单独的标签箱中丢失的数据< >失踪

bi = bininfo (sc,'ResStatus');disp (bi)
宾好差赔率WOE INFOVALUE ______________ ____ ___ ______ _________ __________ { '租户'} 296 161 1.8385 -0.095463 0.0035249 { '家庭所有者'} 352 171 2.0585 0.017549 0.00013382 { '其他'} 128 52 2.4615 0.19637 0.0055808 { '<缺失>'} 27 13 2.0769 0.026469 2.3248e-05 { '总计'} 803 397 2.0227的NaN 0.0092627

对于'CustAge''ResStatus'预测器,有缺少数据(S和<未定义>)在训练数据中,并且所述像素合并过程估计的-0.15787和0.026469一个WOE值分别为缺少这些预测数据,如上所示。

对于EmpStatusCustIncome有缺失值,因为训练的数据没有丢失了这些预测值没有明确的垃圾桶。

bi = bininfo (sc,'EmpStatus');disp (bi)
滨好差赔率WOE INFOVALUE ____________ ____ ____ ______ ________ _________ { '未知'} 396 239 1.6569 -0.19947 0.021715 { '就业'} 407 158 2.5759 0.2418 0.026323 { '彩民'} 803 397 2.0227 NaN的0.048038
bi = bininfo (sc,'CustIncome');disp (bi)
宾好差赔率WOE INFOVALUE _________________ ____ ___ _______ _________ __________ { '[0,29000)'} 53 58 0.91379 -0.79457 0.06364 { '[29000,33000)'} 74 49 1.5102 -0.29217 0.0091366 { '[33000,35000)'} 68 36 1.8889 -0.06843 0.00041042 { '[35000,40000)'} 193 98 1.9694 -0.026696 0.00017359 { '[40000,42000)'} 68 34 2 -0.011271 1.0819e-05 { '[42000,47000)'} 16466 2.4848 0.20579 0.0078175 { '[47000,天道酬勤]'} 183 56 3.2679 0.47972 0.041657 { '总计'} 803 397 2.0227的NaN 0.12285

使用fitmodel利用证据权重(WOE)数据拟合逻辑回归模型。fitmodel在内部将所有预测变量转换为祸值,使用自动装箱过程中找到的箱子。fitmodel然后配合使用逐步方法(默认)逻辑回归模型。对于有缺失数据的预测,有一个明确的< >失踪bin,并根据数据计算出相应的WOE值。当使用fitmodel,对于<缺失>仓中的对应值WOE执行WOE变换时被应用。

(sc, mdl) = fitmodel (sc);
1.添加CustIncome,越轨= 1490.8527,Chi2Stat = 32.588614,p值= 1.1387992e-08 2.添加TmWBank,越轨= 1467.1415,Chi2Stat = 23.711203,p值= 1.1192909e-06 3.添加AMBalance,越轨= 1455.5715,Chi2Stat = 11.569967那PValue = 0.00067025601 4. Adding EmpStatus, Deviance = 1447.3451, Chi2Stat = 8.2264038, PValue = 0.0041285257 5. Adding CustAge, Deviance = 1442.8477, Chi2Stat = 4.4974731, PValue = 0.033944979 6. Adding ResStatus, Deviance = 1438.9783, Chi2Stat = 3.86941, PValue = 0.049173805 7. Adding OtherCC, Deviance = 1434.9751, Chi2Stat = 4.0031966, PValue = 0.045414057 Generalized linear regression model: status ~ [Linear formula with 8 terms in 7 predictors] Distribution = Binomial Estimated Coefficients: Estimate SE tStat pValue ________ ________ ______ __________ (Intercept) 0.70229 0.063959 10.98 4.7498e-28 CustAge 0.57421 0.25708 2.2335 0.025513 ResStatus 1.3629 0.66952 2.0356 0.04179 EmpStatus 0.88373 0.2929 3.0172 0.002551 CustIncome 0.73535 0.2159 3.406 0.00065929 TmWBank 1.1065 0.23267 4.7556 1.9783e-06 OtherCC 1.0648 0.52826 2.0156 0.043841 AMBalance 1.0446 0.32197 3.2443 0.0011775 1200 observations, 1192 error degrees of freedom Dispersion: 1 Chi^2-statistic vs. constant model: 88.5, p-value = 2.55e-16

由缩放记分点使用方法中的“点,赔率和指向赔率(PDO)双”'PointsOddsAndPDO'的观点formatpoints.假设你要的500分的得分有2赔率(两倍,可能是比好是坏),而赔率每50点增加一倍(使550分将有4赔率)。

显示记分卡,显示保留在拟合模型中的预测器的缩放点。

SC = formatpoints(SC,'PointsOddsAndPDO'[500 2 50]);PointsInfo = displaypoints(SC)
PointsInfo =38×3的表预测滨点数_____________ ______________ ______ { 'CustAge'} { '[0,33)'} 54.062 { 'CustAge'} { '[33,37)'} 56.282 { 'CustAge'} { '[37,40)'}60.012 { 'CustAge'} { '[40,46)'} 69.636 { 'CustAge'} { '[46,48)'} 77.912 { 'CustAge'} { '[48,51)'} 78.86 { 'CustAge'} { '[51,58)'} 80.83 { 'CustAge'} { '[58,天道酬勤]'} 96.76 { 'CustAge'} { '<缺失>'} 64.984 { 'ResStatus'} { '租户'} 62.138{ 'ResStatus'} { '家庭所有者'} 73.248 { 'ResStatus'} { '其他'} 90.828 { 'ResStatus'} { '<缺失>'} 74.125 { 'EmpStatus'} { '未知'} 58.807 {'EmpStatus'} {' 就业”} 86.937 { 'EmpStatus'} { '<缺失>'}的NaN⋮

注意到这一点< >失踪纸槽CustAgeResStatus明确地示出(如64.983674.1250分别)。这些点被从用于<缺失> bin中的WOE值和逻辑模型系数来计算。

对于那些在训练集中没有丢失数据的预测,并没有明确的<遗漏>箱。默认情况下,点设置丢失的数据,以及它们导致的比分运行时比分.对于没有明确的<遗漏>斌预测,使用的名称,参数值“丢失”in.formatpoints以指示如何处理缺失的数据进行评分。

为了说明的目的,采取从原始数据几行作为测试数据和介绍一些丢失的数据。还介绍了一些无效,或外的范围,值。对于数字数据,低于最低值(或高于最大)可携带被认为是无效,如年龄(负值召回'MINVALUE'之前设置为0CustAgeCustIncome)。对于分类数据,无效的值,例如,一个居民身份之前没有映射到记分卡类未明确列入记分卡的类别,如“家”,或无意义的字符串,如“ABC123”。

TDATA = dataMissing(11:18,mdl.PredictorNames);%只保留模型中的预测器%设置一些缺失的值tdata.CustAge(1)= NaN的;tdata.ResStatus(2)=' <定义> ';tdata.EmpStatus(3)=' <定义> ';tdata.CustIncome(4)= NaN的;%设定一些无效值tdata.CustAge(5)= -100;tdata.ResStatus(6)=“房子”;tdata.EmpStatus (7) =“自由职业者”;tdata.CustIncome(8)=  -  1;DISP(TDATA)
CustAge ResStatus EmpStatus CustIncome TmWBank OtherCC AMBalance _______ ___________ ___________ __________ _______ _______ _________的NaN租户未知34000 44是119.8 48 <未定义>未知44000 14是403.62 65房主<未定义> 48000 6无111.88 44其它未知的NaN 35无436.41 -100其他采用46000 16是162.21 33家采用36000 36是845.02 39租户自由职业者34000 40是756.26 24家业主雇员-1 19是449.61

对新数据进行评分,并查看如何为缺失打分CustAgeResStatus,因为我们有一个显式的为< >失踪.但是,对于EmpStatusCustIncome比分功能设置点.相应的违约概率也被设置为

[比分,积分] =得分(SC,TDATA);DISP(得分)
481.2231 520.8353楠楠551.7922 487.9588楠楠
DISP(点)
CustAge ResStatus EmpStatus CustIncome TmWBank OtherCC AMBalance _______ _________ _________ __________ _______ _______ _________ 64.984 62.138 58.807 67.893 61.858 75.622 89.922 78.86 74.125 58.807 82.439 61.061 75.622 89.922 96.76 73.248 NaN的96.969 51.132 50.914 89.922 69.636 90.828 58.807 NaN的61.858 50.914 89.922 64.984 90.828 86.937 82.439 61.061 75.622 89.922 56.28274.125 86.937 70.107 61.858 75.622 63.028 60.012 62.138 67.893的NaN 61.858 75.622 63.028 54.062 73.248 86.937 61.061的NaN 75.622 89.922
pd = probdefault(sc,tdata);DISP(PD)
0.3934 0.2725楠楠0.3714 0.1961楠楠

使用name-value的取值“丢失”in.formatpoints选择如何分配点数为没有明确的预测缺失值< >失踪完事。在这个例子中,使用“MinPoints”选项为“丢失”论点。对于最低点EmpStatus在上面显示的记分卡中58.8072,对于CustIncome最小值点是29.3753.现在所有的行都有一个分数和相应的违约概率。

SC = formatpoints(SC,“丢失”“MinPoints”);[比分,积分] =得分(SC,TDATA);DISP(得分)
481.2231 520.8353 517.7532 451.3405 551.7922 487.9588 449.3577 470.2267
DISP(点)
CustAge ResStatus EmpStatus CustIncome TmWBank OtherCC AMBalance _______ _________ _________ __________ _______ _______ _________ 64.984 62.138 58.807 67.893 61.858 75.622 89.922 78.86 74.125 58.807 82.439 61.061 75.622 89.922 96.76 73.248 58.807 96.969 51.132 50.914 89.922 69.636 90.828 58.807 29.375 61.858 50.914 89.922 64.984 90.828 86.937 82.439 61.061 75.622 89.922 56.28274.125 86.937 70.107 61.858 75.622 63.028 60.012 62.138 58.807 67.893 61.858 75.622 63.028 54.062 73.248 86.937 29.375 61.061 75.622 89.922
pd = probdefault(sc,tdata);DISP(PD)
0.3934 0.2725 0.2810 0.4954 0.1961 0.3714 0.5022 0.4304

输入参数

崩溃

信用记分卡模型,指定为creditscorecard对象。要创建此对象,请使用creditscorecard

(可选)应用默认规则的概率数据集,指定为MATLAB®表,其中每一行对应于单个观察。属性中的每个预测器的数据必须包含列creditscorecard对象。

数据类型:表格

输出参数

崩溃

默认概率,作为a返回NumObs——- - - - - -1的默认概率数值阵列。

更多关于

崩溃

违约概率

未缩放的分数计算后(见计算和缩放分数的算法),这些点的概率“好”是由下式表示:

probgood = 1./(1 + exp(-uncaledscores))

因此,违约概率为

pd = 1 - ProbGood

参考文献

[1] Refaat,M。信用风险记分卡:使用SAS开发和实施。lulu.com, 2011。

介绍了R2015a