主要内容

本数据使用装箱Explorer创建信用计分卡

创建一个信用计分卡使用装箱的探险家应用程序使用。装箱的探险家本数据,绘制分箱数据信息,导出creditscorecard对象。然后使用creditscorecard对象和函数从金融工具箱™适合逻辑回归模型,确定得分的数据,确定违约的概率,并验证信用计分卡模型使用三个不同的指标。

步骤1。负载信用计分卡数据MATLAB工作区。

使用CreditCardData.mat文件加载数据在MATLAB®工作空间(使用数据集从Refaat 2011)。

负载CreditCardDatadisp(数据(1:10)):
CustID CustAge TmAtAddress ResStatus EmpStatus CustIncome TmWBank OtherCC AMBalance UtilRate地位______ ___________ _____ _____ __________ ____ ____ ____ ________ ________ 62 53租户未知50000 55是的1055.9 - 0.22 0 2 61 22业主雇佣52000 25是的1161.6 - 0.24 0 3 47 30租户雇佣了37000 61 877.23 0.29 0 4 50 75房主雇用了53000名20是的157.37 - 0.08 0 5 68 56家老板雇用了53000名14是的561.84 - 0.11 0 6 65 13业主雇用了48000名59岁是的968.18 - 0.15 0 7 34 32房主未知32000 26是的717.82 0.02 1 8 50 57其他雇佣了51000 33没有3041.2 - 0.13 0 9 50 10租户未知52000 25是的115.56 - 0.02 1 10 49 53000房主未知23是的718.5 0.17 1

步骤2。导入数据在装箱的探险家。

开放装箱的探险家从MATLAB将来发布:应用程序选项卡,在计算金融,点击应用程序图标。或者,您可以输入binningExplorerMATLAB命令行上。关于启动的更多信息装箱的探险家从命令行,知道了从MATLAB命令行中使用数据或现有creditscorecard对象

装箱的探险家将来发布,选择导入数据打开导入数据窗口。

进口数据对话框

步骤1中,选择数据

步骤2,选择设置变量类型为每个预测。默认情况下,最后一列的数据(“状态”在这个例子中)被设置为“响应”。所有其他变量被认为是预测。然而,在这个例子中,因为“CustID”(客户身份证号码)并不是一个有用的指标,设置变量类型“CustID”不包括

请注意

如果输入MATLAB表包含一个列权重,从步骤2窗格中,使用变量类型列,单击下拉选择权重。使用观察权重和更多的信息creditscorecard对象,看到信用计分卡建模使用观察权重

如果数据包含缺失值,从步骤2窗格中,设置本丢失的数据:是的。处理缺失数据的更多信息,请参阅信用计分卡建模用缺失值

步骤3,离开单调作为默认初始装箱算法。

点击导入数据完成导入操作。自动装箱使用选定的算法应用到所有预测导入装箱的探险家

垃圾箱是绘制并显示为每个预测。点击选择一个个人预测的情节概述窗格中,预测情节的细节显示在主面板和本信息预测信息窗格底部的应用。

装箱后预测图显示

装箱的探险家执行自动装箱为每个预测变量,使用默认值“单调”算法使用默认算法的选择。单调,理想的线性趋势的证据的效力(悲哀)通常是可取的信用计分卡,因为这转化为线性点对于一个给定的预测。悲哀的趋势为每个预测可视化的阴谋装箱的探险家

执行一些初始数据探索。查询统计数据预测指标“ResStatus”分类变量。

单击ResStatus情节。的本信息窗格包含“好”和“坏”的频率和其他本统计等重量的证据(悲哀)。

本信息显示

对于数值型数据,显示相同的数据。单击CustIncome情节。的本信息更新的信息呢CustIncome

本信息CustIncome预测

步骤3。调整箱子在装箱Explorer中使用人工装箱。

单击CustAge预测情节。注意,箱子1和2也有类似的困境,垃圾箱5和6。

情节为CustAge预测

箱1和2合并,从主面板中,单击Ctrl+点击或转变+点击多选本1和2显示合并的蓝色的轮廓。

情节为CustAge预测有两个箱子

装箱的探险家将来发布,使用只读显示边缘文本框的边缘来验证值选择箱子合并。

使用只读文本框边缘为CustAge预测验证选中的垃圾箱

点击合并完成合并箱1和2。的CustAge预测情节更新为新本信息和细节本信息预测信息窗格也更新。

情节CustAge预测的两个合并选定的垃圾箱

接下来,箱子4和5合并,因为他们也有类似的问题。

情节与垃圾箱CustAge预测4和5合并

CustAge预测情节更新与新本信息。的细节本信息预测信息窗格也更新。

重复这个合并操作下面的垃圾桶里,也有类似的问题:

  • CustIncome、合并箱3、4和5。

  • TmWBank、合并箱2和3。

  • AMBalance、合并箱2和3。

现在所有预测的垃圾箱close-to-linear悲哀的趋势。

步骤4。导出creditscorecard对象从装箱探险家。

在你完成你的装箱作业,使用装箱的探险家,点击出口然后点击出口计分卡并提供一个creditscorecard对象名称。的creditscorecard对象(sc)保存到MATLAB工作区。

第5步。符合逻辑回归模型。

使用fitmodel函数以适应一个悲哀的数据逻辑回归模型。fitmodel内部箱子的训练数据,将它转换成悲哀的价值观,这地图响应变量‘好’1,符合线性逻辑回归模型。默认情况下,fitmodel使用一个逐步的过程来确定模型中预测所属。

sc = fitmodel (sc);
1。添加CustIncome、偏差= 1490.8954 Chi2Stat = 32.545914, PValue = 1.1640961 e-08 2。添加TmWBank、偏差= 1467.3249 Chi2Stat = 23.570535, PValue = 1.2041739 e-06 3。添加AMBalance、偏差= 1455.858 Chi2Stat = 11.466846, PValue = 0.00070848829 - 4。添加EmpStatus、偏差= 1447.6148 Chi2Stat = 8.2432677, PValue = 0.0040903428 5。添加CustAge、偏差= 1442.06 Chi2Stat = 5.5547849, PValue = 0.018430237 6。添加ResStatus、偏差= 1437.9435 Chi2Stat = 4.1164321, PValue = 0.042468555 7。添加OtherCC、偏差= 1433.7372 Chi2Stat = 4.2063597, PValue = 0.040272676广义线性回归模型:分对数(状态)~ 1 + CustAge + ResStatus + EmpStatus + CustIncome + TmWBank + OtherCC + AMBalance =二项分布估计系数:估计SE tStat PValue ________ ________ _____(拦截)0.7024 0.064 10.975 5.0407即使CustAge EmpStatus ResStatus 0.012988 0.61562 0.24783 2.4841 1.3776 0.65266 2.1107 0.034799 0.88592 0.29296 3.024 0.0024946 CustIncome TmWBank 0.0013001 0.69836 0.21715 3.216 1.106 0.23266 4.7538 1.9958 e-06 OtherCC AMBalance 0.038806 1.0933 0.52911 2.0662 1.0437 0.32292 3.2322 0.0012285 1200观察,1192错误自由度色散:1 x ^ 2-statistic与常数模型:89.7,p = 1.42 e-16

步骤6。审查和格式计分卡点。

物流模型拟合后,默认点们和直接来自悲哀的组合值和模型系数。使用displaypoints函数总结计分卡点。

p1 = displaypoints (sc);disp (p1)
预测本点_______ _____________ _____ ' CustAge ' '[负无穷,37)“-0.15314”CustAge ' ' [37、40)“-0.062247”CustAge ' '[40岁,46)“0.045763”CustAge ' '[46岁,58)“0.22888”CustAge ' '[58岁的Inf]“0.48354”ResStatus“租户”-0.031302“ResStatus“业主“0.12697”ResStatus ' '其他' 0.37652 ' EmpStatus“未知的“-0.076369”EmpStatus“使用‘0.31456’CustIncome ' '[无穷,29000)“-0.45455”CustIncome“[29000、33000)“-0.1037”CustIncome“[33000、42000)“0.077768”CustIncome“[42000、47000)“0.24406”CustIncome”(47000年,正)“0.43536”TmWBank ' '[无穷,12)“-0.18221”TmWBank“45(12日)“-0.038279”TmWBank“[71)“0.39569”TmWBank”(71年,正)“0.95074”OtherCC ' '没有' -0.193 ' OtherCC ' '是的' 0.15868 ' AMBalance ' '[无穷,558.88)“0.3552”AMBalance ' ' [558.88, 1597.44)“-0.026797”AMBalance -0.21168 ' '[1597.44,正]'

使用modifybins给箱子更具描述性的标签。

sc = modifybins (sc,“CustAge”,“BinLabels”,{“36”37到39的40到45的“46 57”“58,”});sc = modifybins (sc,“CustIncome”,“BinLabels”,{“28999”“29000 - 32999”“33000 - 41999”“42000 - 46999”“47000,”});sc = modifybins (sc,“TmWBank”,“BinLabels”,{“11”“12至44”45到70的“71,”});sc = modifybins (sc,“AMBalance”,“BinLabels”,{“558.87”558.88到1597.43的“1597.44”,});p1 = displaypoints (sc);disp (p1)
预测本点_______ ___________________ _____“CustAge”“多达36”-0.15314“CustAge”“37 39”-0.062247“CustAge”40到45的0.045763“CustAge”“46 57”0.22888“CustAge”“58,”0.48354“ResStatus”“租户”-0.031302“ResStatus”“房主”0.12697“ResStatus”“其他”0.37652“EmpStatus”“未知”-0.076369“EmpStatus”“雇佣”0.31456“CustIncome”“28999”-0.45455“CustIncome”“29000年到32999年的-0.1037“CustIncome”“33000年到41999年的0.077768“CustIncome”“42000年到46999年的0.24406“CustIncome”的47000和0.43536“TmWBank”“11”-0.18221“TmWBank”“12至44”-0.038279“TmWBank”' 45到70 ' 0.39569 ' TmWBank ' ' 71和0.95074“OtherCC”“不”-0.193“OtherCC”“是的”0.15868“AMBalance”“558.87”0.3552“AMBalance”558.88到1597.43的-0.026797“AMBalance”的1597.44和-0.21168

点了,也经常圆。轮和规模点,使用formatpoints函数。例如,你可以设定一个目标点对应于一个目标概率水平和水平也设置所需points-to-double-the-odds (PDO)。

“靶点= 500;TargetOdds = 2;PDO = 50;%几率的两倍sc = formatpoints (sc,“PointsOddsAndPDO”,(靶点TargetOdds PDO));p2 = displaypoints (sc);disp (p2)
预测本点_______ ___________________ ______“CustAge”“多达36”53.239“CustAge”“37 39”59.796“CustAge”40到45的67.587“CustAge”“46 57”80.796“CustAge”“58,”99.166“ResStatus”“租户”62.028“ResStatus”“房主”73.445“ResStatus”“其他”91.446“EmpStatus”“未知”58.777“EmpStatus”“雇佣”86.976“CustIncome”“28999”31.497“CustIncome”“29000年到32999年的56.805“CustIncome”“33000年到41999年的69.896“CustIncome”“42000年到46999年的81.891“CustIncome”的47000和95.69“TmWBank”“11”51.142“TmWBank”“12至44”61.524“TmWBank”' 45到70 ' 92.829 ' TmWBank ' ' 71和132.87“OtherCC”“不”50.364“OtherCC”“是的”75.732“AMBalance”“558.87”89.908“AMBalance”558.88到1597.43的62.353“AMBalance”的1597.44和49.016

步骤7。得分数据。

使用分数函数来计算训练数据的分数。你还可以通过一个可选的数据输入分数例如,验证数据。分预测值为每个客户提供一个可选的输出。

(分数,分)=分数(sc);disp(分数(1:10)disp(点(1:10,:))
528.2044 554.8861 505.2406 564.0717 554.8861 586.1904 441.8755 515.8125 524.4553 508.3169 CustAge ResStatus EmpStatus CustIncome TmWBank OtherCC AMBalance ____ ____替_____ _____ 80.796 62.028 58.777 95.69 92.829 75.732 62.353 99.166 73.445 86.976 95.69 61.524 75.732 62.353 80.796 62.028 86.976 69.896 92.829 50.364 62.353 80.796 73.445 86.976 95.69 61.524 75.732 89.908 99.166 73.445 86.976 95.69 61.524 75.732 62.353 99.166 73.445 86.976 95.69 92.829 75.732 62.353 53.239 73.445 58.777 56.805 61.524 75.732 62.353 80.796 91.446 86.976 95.69 61.524 50.364 49.016 80.796 62.028 58.777 95.69 61.524 75.732 89.908 80.796 73.445 58.777 95.69 61.524 75.732 62.353

步骤8。计算违约概率。

计算违约概率,使用probdefault函数。

pd = probdefault (sc);

定义“好”的概率和情节预测的可能性和格式化的分数。视觉分析的目标点和目标匹配和points-to-double-the-odds (PDO)的关系。

ProbGood = 1 pd;PredictedOdds = ProbGood. / pd;图散射(分数,PredictedOdds)标题(预测概率与分数的)包含(“分数”)ylabel (“预测概率”)举行xLimits = xlim;yLimits = ylim;%的目标点和可能性情节([靶点靶点]、[yLimits (1) TargetOdds),凯西:”)情节([xLimits(1)靶点],[TargetOdds TargetOdds),凯西:”)% + PDO目标点情节([靶点+ PDO靶点+ PDO], [yLimits (1) 2 * TargetOdds),凯西:”)情节([xLimits(1)靶点+ PDO], [2 * 2 * TargetOdds TargetOdds],凯西:”)% - PDO目标点情节([TargetPoints-PDO TargetPoints-PDO]、[yLimits (1) TargetOdds / 2),凯西:”)情节([xLimits (1) TargetPoints-PDO], [TargetOdds / 2 TargetOdds / 2)凯西:”)举行

情节的预测概率和分数

第9步。验证信用计分卡模型使用帽,中华民国,Kolmogorov-Smirnov统计

creditscorecard对象支持三种验金宝app证方法,累积精度(CAP),接受者操作特征(ROC), Kolmogorov-Smirnov (KS)统计。在限制的更多信息,中华民国,KS,看到的validatemodel

(统计、T) = validatemodel (sc,“阴谋”,{“帽子”,“中华民国”,“KS”});disp(统计)disp (T (1:15,:))
测量值______________________ _________的精度比0.32225的ROC曲线下面积0.66113“KS统计”0.22324“k值”499.18分数ProbDefault TrueBads FalseBads TrueGoods FalseGoods敏感性FalseAlarm PctObs ______ ___________ ________替__________ ___________ __________ __________ 369.4 - 0.7535 0 0 0.0012453 0.00083333 377.86 0.73107 1 1 1 802 397 802 396 0.0025189 0.0012453 0.0016667 379.78 0.7258 - 2 1 802 395 3 1 802 394 0.0075567 0.0050378 0.0012453 0.0025 391.81 0.69139 0.0012453 0.0033333 394.77 0.68259 801 394 0.0075567 0.0024907 0.0041667 395.78 0.67954 - 4 2 5 801 393 0.010076 0.0024907 0.005 396.95 0.67598 801 392 0.012594 0.0024907 0.0058333 398.37 0.67167 6 2 801 391 0.015113 0.0024907 0.0066667 401.26 0.66276 801 390 0.017632 0.0024907 0.0075 403.23 0.65664 389 801 0.020151 0.0024907 0.0083333 405.09 0.65081 8 3 800 389 0.020151 0.003736 0.0091667 405.15 0.65062 11 5 798 386 0.027708 0.0062267 0.013333 405.37 0.64991 11 6 797 386 0.027708 0.007472 0.014167 406.18 0.64735 12 6 797 385 0.030227 0.007472 0.015 407.14 0.64433 13 6 797 384 0.032746 0.007472 0.015833

帽曲线

ROC曲线

钴的阴谋

另请参阅

||||||||||||||||

相关的例子

更多关于

外部网站