主要内容

分级资源管理案例研究示例

这个例子说明了如何使用创建信用记分卡装箱的探险家应用程序。使用装箱的探险家到仓中的数据,绘制分级数据信息,以及出口creditscorecard对象。然后使用creditscorecard对象,该对象具有来自Financial Toolbox的函数™ 要拟合逻辑回归模型,请确定数据的分数,确定违约概率,并使用三种不同的指标验证信用记分卡模型。

步骤1.加载信用记分卡数据马铃薯工作区。

使用CreditCardData.mat文件来加载数据进入MATLAB®工作区(使用来自Refaat 2011的数据集)。

负载信用卡数据disp(数据(1:10)):
CustID CustAge TmAtAddress ResStatus EmpStatus CustIncome TmWBank OtherCC AMBalance UtilRate地位  ______ _______ ___________ __________ _________ __________ _______ _______ _________ ________ ______ 1 53 62租户未知50000 55是的1055.9 - 0.22 0 2 61 22家老板雇用了52000名25是的1161.6 - 0.24 0 3 47 30租户雇佣了37000 61 877.230.29 0 4 50 75业主雇用了53000名20是的157.37 - 0.08 0 5 68 56家老板雇用了53000名14是的561.84 - 0.11 0 6 65 13业主雇用了48000名59岁是的968.18 - 0.15 0 7 34 32房主未知32000 26是的717.82 0.02 1 8 50 57其他雇佣了51000 33没有3041.2 - 0.13 0 9 50 10租户未知52000 25是的115.56 0.02 1 10 49 30房主未知53000 23是718.5 0.17 1

步骤2.导入数据在装箱的探险家。

开放装箱的探险家从MATLAB工具条:关于应用选项卡,在计算金融学,点击应用程序图标。或者,你可以输入binningExplorer在MATLAB命令行上。有关启动装箱的探险家从命令行,参见从MATLAB命令行开始使用数据或现有的记分卡对象

来自装箱的探险家将来发布,选择导入数据打开“导入数据”窗口。

导入数据对话框

第一步中,选择数据

步骤2,可选设置变量类型对于每一个预测因子。默认情况下,数据中的最后一列(“状态”在此实例中)被设置为“响应”. 具有最高计数的响应值(0在此实例中)被设置为‘好’。所有其他变量都被视为预测因子。但是,在本例中,因为“CustID”不是预测,设定变量类型“CustID”不包括

请注意

如果输入MATLAB表包含的列为权重, 来自步骤2窗格,使用变量类型列,单击下拉菜单进行选择权重。有关将观察权重与creditscorecard对象,看到使用信用观察记分卡权重建模

如果数据包含丢失的值,则从步骤2窗格中,设置滨丢失的数据:是的.有关使用丢失的数据的详细信息,请参阅缺失值的信用记分卡建模

步骤3,离开单调作为默认初始分级算法。

点击导入数据完成导入操作。使用选择的算法自动分级被应用到所有的预测,因为它们导入到装箱的探险家

为每个预测器绘制并显示箱子。通过单击从概述窗格中,该预测器的详细信息将显示在主窗格和滨信息预测器信息窗格在应用程序的底部。

分类后显示预测器图

装箱的探险家使用默认值对每个预测器变量执行自动分类“单调”带有默认算法选项的算法。信贷记分卡通常需要证据权重(WOE)的单调、理想线性趋势,因为这会转化为给定预测值的线性点。WOE趋势在每个预测值的曲线图上可视化装箱的探险家

执行一些初始数据探索。查询预测统计“ResStatus”分类变量。

单击ResStatus情节。的滨信息窗格中包含“好的”和“坏的”频率和其他的统计数据,如证据权重(WOE)。

本信息显示

对于数字数据,显示相同的统计信息。单击CustIncome情节。的滨信息是否更新了有关的信息CustIncome

用于CustIncome预测器的Bin信息

步骤3微调在分档资源管理器使用手动合并的二进制位。

单击保管预测的情节。注意,箱1和2具有相似的困境,因为这样做箱5和6。

Plot for CustAge predictor

要合并容器1和容器2,请在主窗格中单击按Ctrl+点击或转变+点击多选仓1和2与蓝色轮廓来显示用于合并。

绘制了CustAge预测与选择了两个垃圾箱

装箱的探险家将来发布,边缘文本框显示要合并的选定容器边缘的值。

使用边线文本框来CustAge预测合并选定格

点击合并到完成合并仓1和2。保管的预测器图更新了新的bin信息和详细信息滨信息预测器信息窗格也会更新。

绘图CustAge预测与两个选定的箱子合并

接下来,合并垃圾箱4和5,因为它们也有类似的问题。

Plot for CustAge predictor with bins 4 and 5 selected for merge

保管预测剧情与新宾信息进行更新。在细节滨信息预测器信息窗格也会更新。

对具有类似问题的以下容器重复此合并操作:

  • CustIncome,合并垃圾箱3,4和5。

  • TmWBank,合并垃圾箱2和3。

  • AMBalance,合并垃圾箱2和3。

现在,所有预测者的箱子都有接近线性的悲哀趋势。

步骤4.导出creditscorecardbininning Explorer中的对象。

在你完成你的分类作业后,使用装箱的探险家, 点击出口然后点击出口计分卡并提供一个creditscorecard对象名称。的creditscorecard目的 (sc)保存到MATLAB工作空间。

步骤5.拟合逻辑回归模型。

使用fitmodel函数拟合逻辑回归模型来WOE数据。fitmodel内部仓中的训练数据,把它转换为WOE值,响应变量映射,使得‘好’1,并拟合线性逻辑回归模型。默认情况下,fitmodel采用逐步的过程,以确定哪些预测模型中的归属。

sc = fitmodel (sc);
1.增加客户收入,偏差= 1490.8954,Chi2Stat = 32.545914, PValue = 1.1640961e-08添加TmWBank, Deviance = 1467.3249, Chi2Stat = 23.570535, PValue = 1.2041739e-06添加AMBalance, Deviance = 1455.858, Chi2Stat = 11.466846, PValue = 0.00070848829增加EmpStatus, Deviance = 1447.6148, Chi2Stat = 8.2432677, PValue = 0.0040903428加CustAge, Deviance = 1442.06, Chi2Stat = 5.5547849, PValue = 0.018430237添加ResStatus, Deviance = 1437.9435, Chi2Stat = 4.1164321, PValue = 0.042468555广义线性回归模型:logit(status) ~ 1 + CustAge + ResStatus + EmpStatus + CustIncome + TmWBank + OtherCC + AMBalance Distribution = Binomial Estimated Coefficients:Estimate SE tStat pValue ________ _______ ______ __________ (Intercept) 0.7024 0.064 10.975 5.0407e-28 CustAge 0.61562 0.24783 2.4841 0.012988 ResStatus 1.3776 0.65266 2.1107 0.034799 EmpStatus 0.88592 0.29296 3.024 0.0024946 CustIncome 0.69836 0.21715 3.216 0.0013001 TmWBank 1.106 0.23266 4.7538 1.9958e-06 OtherCC 1.0933 0.52911 0.00662 0.038806分散:1 Chi^2-statistic vs. constant model: 89.7, p-value = 1.42e-16

步骤6。检查和格式化记分卡的要点。

logistic模型拟合后,这些点默认是无比例的,直接来自于WOE值和模型系数的组合。使用displaypoints用于汇总记分卡点数的函数。

p1 = displaypoints (sc);disp (p1)
预测滨点____________ __________________ _________ 'CustAge' '[-Inf,37)' -0.15314 'CustAge' '[37,40)' -0.062247 'CustAge' '[40,46)' 0.045763 'CustAge'“[46,58)' 0.22888 'CustAge' '[58,Inf]' 0.48354 'ResStatus' 'Tenant' -0.031302 'ResStatus' 'Home Owner' 0.12697 'ResStatus' 'Other' 0.37652 'EmpStatus' 'Unknown' -0.076369 'EmpStatus' 'Employed' 0.31456 'CustIncome' '[-Inf,29000)' -0.45455 'CustIncome' '[29000,33000)' -0.1037 'CustIncome' '[33000,42000)' 0.077768 'CustIncome' '[42000,47000)' 0.24406 'CustIncome' '[47000,Inf]' 0.43536 'TmWBank' '[-Inf,12)' -0.18221 'TmWBank' '[12,45)' -0.038279 'TmWBank' '[45,71)' 0.39569 'TmWBank' '[71,Inf]' 0.95074 'OtherCC' 'No' -0.193 'OtherCC' 'Yes' 0.15868 'AMBalance' '[-Inf,558.88)' 0.3552 'AMBalance' '[558.88,1597.44)' -0.026797 'AMBalance' '[1597.44,Inf]' -0.21168

使用modifybins为容器添加更多描述性标签。

sc = modifybins (sc,'CustAge'“BinLabels”...“高达36”'37到39'40到45的'46到57'‘58岁及以上’});sc=修改箱(sc,“CustIncome”“BinLabels”...“28999”“29000 - 32999”'33000至41999'“42000 - 46999”“47000及以上”});sc=修改箱(sc,'TmWBank'“BinLabels”...“高达11”“12至44”45到70的71年及以上”});sc=修改箱(sc,'AMBalance'“BinLabels”...“558.87”558.88到1597.43的“1597.44及以上”});p1 = displaypoints (sc);disp (p1)
UUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUEMPStatus“”未知“-0.076369”EmpStatus“雇佣”0.31456“客户收入”至28999“客户收入”0.4545455“客户收入”29000至32999“客户收入”0.1037“客户收入”33000至41999“客户收入”0.077768“客户收入”42000至46999“客户收入”0.24406“客户收入”47000及以上“TmWBank”至11“TmWBank”至0.18221“TmWBank”12至44“TmWBank”0.038279“TmWBank”45至70“TmWBank”0.39569“TmWBank”71及“TmWBank”0.95074“其他”号-0.193”“其他CC”“是”“0.15868”“AMBalance”“高达558.87”“0.3552”“AMBalance”“558.88至1597.43”“-0.026797”“AMBalance”“1597.44及以上”“0.21168”

点是缩放的,也经常是圆角的。圆角和缩放点,使用formatpoints函数。例如,您可以设置与目标几率级别相对应的目标点数级别,还可以设置所需的点数翻倍几率(PDO)。

TargetPoints = 500;TargetOdds = 2;PDO = 50;%得分使胜算加倍sc = formatpoints (sc,“PointsOddsAndPDO”,(靶点TargetOdds PDO));p2 = displaypoints (sc);disp (p2)
UUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUU86.976“客户收入”达28999“31.497”客户收入“29000至32999”56.805“客户收入”33000至41999“69.896”客户收入“42000至46999”81.891“客户收入”47000及以上“95.69”TmWBank“11”51.142“TmWBank”12至44“61.524”TmWBank“45至70”92.829“TmWBank”71及以上“132.87”OtherCC“50.364”OtherCC“是”75.732“AMBalance”“高达558.87”89.908“AMBalance”558.88至1597.43“62.353”AMBalance“1597.44及高达49.016

步骤7。得分数据。

使用分数函数来计算训练数据的分数。你也可以传递一个可选参数数据输入分数中,例如,验证数据。为每个客户每个预测器的点被设置为一个可选的输出。

(分数,分)=分数(sc);disp(分数(1:10)disp(点(1:10,:))
528.2044 554.8861 505.2406 564.0717 554.8861 586.1904 441.8755 515.8125 524.4553 508.3169 CustAge ResStatus EmpStatus CustIncome TmWBank OtherCC AMBalance _______ _________ _________ __________ _______ _______ _________ 80.796 62.028 58.777 95.69 92.829 75.732 62.353 99.166 73.445 86.976 95.69 61.524 75.732 62.353 80.796 62.028 86.976 69.896 92.82950.364 62.353 80.796 73.445 86.976 95.69 61.524 75.732 89.908 99.166 73.445 86.976 95.69 61.524 75.732 62.353 99.166 73.445 86.976 95.69 92.829 75.732 62.353 53.239 73.445 58.777 56.805 61.524 75.732 62.353 80.796 91.446 86.976 95.69 61.524 50.364 49.016 80.796 62.028 58.777 95.69 61.524 75.732 89.908 80.796 73.445 58.777 95.69 61.524 75.732 62.353

步骤8。计算违约概率。

要计算违约概率,使用probdefault函数。

pd=默认值(sc);

定义“良好”的概率,并绘制预测赔率与格式化分数的对比图。目视分析目标点数和目标赔率是否匹配,以及赔率加倍(PDO)关系是否成立。

ProbGood = 1 pd;PredictedOdds = ProbGood. / pd;图散射(分数,PredictedOdds)标题(“预测赔率与分数”)包含(“分数”) ylabel (“预测赔率”)举行xLimits = xlim;yLimits = ylim;%目标点和赔率情节([靶点靶点]、[yLimits (1) TargetOdds),'K:'[xLimits(1) TargetPoints],[TargetOdds TargetOdds],'K:')%目标积分加PDO绘图([TargetPoints+PDO TargetPoints+PDO],[yLimits(1)2*TargetOdds],'K:') plot([xLimits(1) TargetPoints+PDO],[2*TargetOdds 2*TargetOdds],'K:')%目标点减去PDO情节([TargetPoints-PDO TargetPoints-PDO]、[yLimits (1) TargetOdds / 2),'K:')情节([xLimits(1)TargetPoints-PDO],[TargetOdds / 2 TargetOdds / 2],'K:')举行

预测赔率与得分的关系图

第9步。使用CAP、ROC和Kolmogorov-Smirnov统计量验证信用记分卡模型

creditscorecard对象支持三种验金宝app证方法,累积精度轮廓(CAP),接收者工作特征(ROC)和Kolmogorov-Smirnov (KS)统计量。有关CAP、ROC和KS的更多信息,请参见validatemodel

(统计、T) = validatemodel (sc,“阴谋”, {“帽子”“中华民国”“KS”});disp(统计)disp (T (1:15,:))
测量值______________________ _______ '准确率' 0.32225 '区下ROC曲线' 0.66113 'KS统计' 0.22324 'KS得分' 499.18比分ProbDefault TrueBads FalseBads TrueGoods FalseGoods灵敏度误报警PctObs ______ ___________ ________ _________ _________ __________ ___________ __________ __________ 369.4 0.7535 0 1 802 3970 0.0012453 0.00083333 377.86 0.73107 1 1 802 396 0.0025189 0.0012453 0.0016667 379.78 0.7258 2 1 802 395 0.0050378 0.0012453 0.0025 391.81 0.69139 3 1 802 394 0.0075567 0.0012453 0.0033333 394.77 0.68259 3 2 801 394 0.0075567 0.0024907 0.0041667 395.78 0.67954 4 2 801 393 0.010076 0.0024907 0.005 396.95 0.675985 2 801 392 0.012594 0.0024907 0.0058333 398.37 0.67167 6 2 801 391 0.015113 0.0024907 0.0066667 401.26 0.66276 7 2 801 390 0.017632 0.0024907 0.0075 403.23 0.65664 8 2 801 389 0.020151 0.0024907 0.0083333 405.09 0.65081 8 3 800 389 0.020151 0.003736 0.0091667 405.15 0.65062 11 5 798 386 0.0277080.0062267 0.013333 405.37 0.64991 11 6797 386 0.027708 0.007472 0.014167 406.18 0.64735 12 6 797 385 0.030227 0.007472 0.015 407.14 0.64433 13 6 797 384 0.032746 0.007472 0.015833

帽曲线

ROC曲线

K-S图

另请参阅

||||||||||||||||

相关的例子

更多关于

外部网站