Fitmodel.

适合逻辑回归模型,以证据重量(WOE)数据

描述

例子

sc= fitmodel(sc适合对证据(WOE)数据的重量的逻辑回归模型,并存储模型预测器名称和相应的系数creditscorecard对象。

Fitmodel.内部将所有预测变量转换为WOE值,使用自动或手动装箱过程中找到的箱子。响应变量被映射为“Good”1,而“坏”就是0.这意味着更高(未划分的)分数对应于更好(较小的风险)个体(较少的默认可能性)。

或者,您可以使用setmodel提供您希望在逻辑回归模型中使用的预测器的名称及其相应的系数。

例子

scmdl) = fitmodel (sc适合对证据(WOE)数据的重量的逻辑回归模型,并存储模型预测器名称和相应的系数creditscorecard对象。Fitmodel.返回更新creditscorecard对象和A.GeneralizedLinearModel包含拟合模型的物体。

Fitmodel.内部将所有预测变量转换为WOE值,使用自动或手动装箱过程中找到的箱子。响应变量被映射为“Good”1,而“坏”就是0.这意味着更高(未划分的)分数对应于更好(较小的风险)个体(较少的默认可能性)。

或者,您可以使用setmodel提供您希望在逻辑回归模型中使用的预测器的名称及其相应的系数。

例子

scmdl) = fitmodel (___名称,值使用可选的名称-值对参数将逻辑回归模型拟合到证据权重(WOE)数据,并将模型预测器名称和相应的系数存储在creditscorecard对象。使用名称-值对参数,可以选择适合数据的广义线性模型。Fitmodel.返回更新creditscorecard对象和A.GeneralizedLinearModel包含拟合模型的物体。

例子

全部折叠

创建一个creditscorecard对象使用CreditCardData.mat.文件加载数据(使用Refaat 2011年的数据集)。

负载CreditCardData.sc = creditscorecard(数据,'idvar'“CustID”
sc = creditscorecard具有属性:goodlabel:0 responsevar:'status'weightsvar:''varnames:{1x11 cell} numericpredictors:{1x6 cell} cateCoricalpricictors:{'resstatus''empstatus'''其他} binmissingdata:0 idvar:'custid'predictorvars:{1x9 cell}数据:[1200x11表]

执行自动装箱。

sc = autobinning(sc)
sc = creditscorecard具有属性:goodlabel:0 responsevar:'status'weightsvar:''varnames:{1x11 cell} numericpredictors:{1x6 cell} cateCoricalpricictors:{'resstatus''empstatus'''其他} binmissingdata:0 idvar:'custid'predictorvars:{1x9 cell}数据:[1200x11表]

使用Fitmodel.利用证据权重(WOE)数据拟合逻辑回归模型。Fitmodel.内部将所有预测变量转换为WOE值,使用自动装箱过程中找到的箱子。Fitmodel.然后使用逐步方法(默认情况下)拟合逻辑回归模型。

sc = fitmodel (sc);
1.添加询问,偏差= 1490.8527,pvalue = 1.1387992E-08 2.添加TMWBANK,Deviance = 1467.1415,Chi2Stat = 23.711203,Pvalue = 1.1192909E-06 3.添加余距,偏差= 1455.5715,Chi2stat = 11.569967,PValue = 0.00067025601 4. Adding EmpStatus, Deviance = 1447.3451, Chi2Stat = 8.2264038, PValue = 0.0041285257 5. Adding CustAge, Deviance = 1441.994, Chi2Stat = 5.3511754, PValue = 0.020708306 6. Adding ResStatus, Deviance = 1437.8756, Chi2Stat = 4.118404, PValue = 0.042419078 7. Adding OtherCC, Deviance = 1433.707, Chi2Stat = 4.1686018, PValue = 0.041179769 Generalized linear regression model: status ~ [Linear formula with 8 terms in 7 predictors] Distribution = Binomial Estimated Coefficients: Estimate SE tStat pValue ________ ________ ______ __________ (Intercept) 0.70239 0.064001 10.975 5.0538e-28 CustAge 0.60833 0.24932 2.44 0.014687 ResStatus 1.377 0.65272 2.1097 0.034888 EmpStatus 0.88565 0.293 3.0227 0.0025055 CustIncome 0.70164 0.21844 3.2121 0.0013179 TmWBank 1.1074 0.23271 4.7589 1.9464e-06 OtherCC 1.0883 0.52912 2.0569 0.039696 AMBalance 1.045 0.32214 3.2439 0.0011792 1200 observations, 1192 error degrees of freedom Dispersion: 1 Chi^2-statistic vs. constant model: 89.7, p-value = 1.4e-16

使用CreditCardData.mat.载入数据的文件(dataWeights),包含列(RowWeights)的权重(使用Refaat 2011年的数据集)。

负载CreditCardData.

创建一个creditscorecard对象的可选名称-值对参数'teachsvar'

sc = creditscorecard (dataWeights,'idvar'“CustID”'teachsvar'“RowWeights”
sc = creditscorecard with properties: GoodLabel: 0 ResponseVar: 'status' WeightsVar: 'RowWeights' VarNames: {1x12 cell} NumericPredictors: {1x6 cell} CategoricalPredictors: {` ResStatus ` EmpStatus ` OtherCC `} BinMissingData: 0 IDVar: 'CustID' PredictorVars: {1x9 cell} Data: [1200x12 table]

执行自动装箱。

sc = autobinning(sc)
sc = creditscorecard with properties: GoodLabel: 0 ResponseVar: 'status' WeightsVar: 'RowWeights' VarNames: {1x12 cell} NumericPredictors: {1x6 cell} CategoricalPredictors: {` ResStatus ` EmpStatus ` OtherCC `} BinMissingData: 0 IDVar: 'CustID' PredictorVars: {1x9 cell} Data: [1200x12 table]

使用Fitmodel.利用证据权重(WOE)数据拟合逻辑回归模型。Fitmodel.内部将所有预测变量转换为WOE值,使用自动装箱过程中找到的箱子。Fitmodel.然后使用逐步方法(默认情况下)拟合逻辑回归模型。当可选的名称值对参数时'teachsvar'用于指定观察(样本)权重,mdl输出使用加权计数stepwiseglmfitglm

(sc, mdl) = fitmodel (sc);
1.添加询问,偏差= 764.3187,Pvalue = 6.968927E-05 2.添加TMWBANK,偏差= 751.0215,PVALUE = 13.29726,PVALUE = 0.0002657942 3.添加余量,偏差= 743.7581,CHI2STAT = 7.263384,PValue =0.007037455广义线性回归模型:Logit(状态)〜1 + Custincome + TMWBank +伏重分布=二项式估计系数:估计SE Tstat Pvalue ________ _____________________________________(拦截)0.7064 1.6653E-15询问1.0268 0.25758 3.9862 6.7132O-05TMWBANK 1.0973 0.31294 3.5063 0.0004543余距1.0039 0.37576 2.6717 0.37576 2.6717 0.0075464 1200观察结果,1196误差自由度分散:1 Chi ^ 2统计与常数型号:36.4,P值= 6.22E-08

创建一个creditscorecard对象使用CreditCardData.mat.文件加载数据(使用Refaat 2011年的数据集)。

负载CreditCardData.sc = creditscorecard(数据,'idvar'“CustID”
sc = creditscorecard具有属性:goodlabel:0 responsevar:'status'weightsvar:''varnames:{1x11 cell} numericpredictors:{1x6 cell} cateCoricalpricictors:{'resstatus''empstatus'''其他} binmissingdata:0 idvar:'custid'predictorvars:{1x9 cell}数据:[1200x11表]

执行自动装箱。

sc = autobinning(sc,'算法''平等频繁'
sc = creditscorecard具有属性:goodlabel:0 responsevar:'status'weightsvar:''varnames:{1x11 cell} numericpredictors:{1x6 cell} cateCoricalpricictors:{'resstatus''empstatus'''其他} binmissingdata:0 idvar:'custid'predictorvars:{1x9 cell}数据:[1200x11表]

使用Fitmodel.利用证据权重(WOE)数据拟合逻辑回归模型。Fitmodel.内部将所有预测变量转换为WOE值,使用自动装箱过程中找到的箱子。设置变形的名称-值对参数ullmodel.指定所有预测因子必须包含在拟合的逻辑回归模型中。

sc = fitmodel (sc,“VariableSelection”“FullModel”);
[9个线性预测式,用10项]发行=二项式估计系数状态〜::估计SE TSTAT p值________ _______ _________(截距)0.70262 0.063862 11.002 3.734e-28 CustAge 0.57683 0.27064 2.1313 0.033062 TmAtAddress 1.0653 0.55233 1.9287广义线性回归模型0.053762 ResStatus 1.4189 0.65162 2.1775 0.029441 EmpStatus 0.89916 0.29217 3.0776 0.002087 CustIncome 0.77506 0.21942 3.5323 0.0004119 TmWBank 1.0826 0.26583 4.0727 4.648e-05 OtherCC 1.1354 0.52827 2.1493 0.031612 AMBalance 0.99315 0.32642 3.0425 0.0023459 UtilRate 0.16723 0.55745 0.29999 0.76419 1200观察,1190个错误自由度分散体:1Chi ^ 2统计与常数型号:85.6,p值= 1.25e-14

创建一个creditscorecard对象使用CreditCardData.mat.文件加载dataMissing用缺失值。

负载CreditCardData.mat.头(dataMissing, 5)
ans =.5×11表的CustID CustAge TmAtAddress ResStatus EmpStatus CustIncome TmWBank OtherCC AMBalance UtilRate状态______ _______ ___________ ___________ _________ __________ _______ _______ _________ ________ ______ 1 53 62 <未定义>未知50000 55是1055.9 0.22 0 2 61 22家庭业主雇员52000 25是1161.6 0.24 0 3 47 30租户雇用37000 61否877.23 0.29 0 4纳米75家雇主采用53000 20是157.37 0.08 0 5 68 56家主人使用53000 14是561.84 0.11 0
流('行数:%d \ n'、高度(dataMissing))
行数:1200
流('缺少值的数量CustAge: %d\n'总和(ismissing (dataMissing.CustAge)))
缺失值的数量CustAge: 30
流('缺失值的数量Resstatus:%d \ n'总和(ismissing (dataMissing.ResStatus)))
缺少值的数量ResStatus: 40

使用creditscorecard使用名称值参数“BinMissingData”设置为真正的将丢失的数字或分类数据放入单独的容器中。

sc = creditscorecard (dataMissing,'idvar'“CustID”“BinMissingData”,真正的);sc = autobinning (sc);disp (sc)
creditscorecard具有属性:goodlabel:0 responsevar:'status'weightsvar:''varnames:{1x11 cell} numericpredictors:{1x6 cell} cateCoricalpricictors:{'resstatus''empstatus''overcc'} binmissingdata:1 idvar:'custid'predictorvars:{1x9 cell}数据:[1200x11表]

显示和标绘箱子信息的数字数据“守护”这包括丢失的数据放在一个单独的标有标签的箱子里<缺失>

(bi, cp) = bininfo (sc,“守护”);disp (bi)
本好不好悲哀InfoValue几率  _____________ ____ ___ ______ ________ __________ {'[- 正无穷,33)52}69 1.3269 -0.42156 0.018993{[33岁,37)}63年45 1.4 -0.36795 0.012839{[37、40)}72年47 1.5319 -0.2779 0.0079824{'[40岁,46)}172 89 1.9326 -0.04556 0.0004549{'[46岁,48)}59 25 2.36 0.15424 0.0016199{[48,51)}99年41 2.4146 0.17713 0.0035449{'[51,58)'} 157 62 2.5323 0.22469 0.0088407 {'[58,Inf]'} 93 25 3.72 0.60931 0.032198 {''} 19 11 1.7273 -0.15787 0.00063885{'总计'}803 397 2.0227 NaN 0.087112 . jpg (72.54 kb,下载次数:0
plotbins (sc,“守护”

显示和绘制分类数据的箱子信息“ResStatus”这包括丢失的数据放在一个单独的标有标签的箱子里<缺失>

(bi, cg) = bininfo (sc,“ResStatus”);disp (bi)
Bin Good Bad Odds WOE InfoValue ______________ _____________ _________ __________ {'Tenant'} 296 161 1.885 -0.095463 0.0035249 {'Home Owner'} 352 171 2.0585 0.017549 0.00013382 {'Other'} 128 52 2.4615 0.19637 0.0055808 {''} 27 13 2.0769 0.026469 2.3248e-05{'总计'}803 397 2.0227 NaN 0.0092627
plotbins (sc,“ResStatus”

使用Fitmodel.利用证据权重(WOE)数据拟合逻辑回归模型。Fitmodel.内部将所有预测变量转换为WOE值,使用自动装箱过程中找到的箱子。Fitmodel.然后使用逐步方法(默认情况下)拟合逻辑回归模型。对于具有缺失数据的预测器,有一个明确的<缺失>bin,并从数据中计算出相应的WOE值。当使用Fitmodel.,在执行WOE转换时应用<缺失>箱的相应WOE值。例如,客户年龄的缺失值(保管)被替换为-0.15787.哪个是<缺失>本的保管预测。然而,当“BinMissingData”是假的,缺少价值保管仍为失踪()。

(sc, mdl) = fitmodel (sc);
1.添加询问,偏差= 1490.8527,pvalue = 1.1387992E-08 2.添加TMWBANK,Deviance = 1467.1415,Chi2Stat = 23.711203,Pvalue = 1.1192909E-06 3.添加余距,偏差= 1455.5715,Chi2stat = 11.569967,PValue = 0.00067025601 4. Adding EmpStatus, Deviance = 1447.3451, Chi2Stat = 8.2264038, PValue = 0.0041285257 5. Adding CustAge, Deviance = 1442.8477, Chi2Stat = 4.4974731, PValue = 0.033944979 6. Adding ResStatus, Deviance = 1438.9783, Chi2Stat = 3.86941, PValue = 0.049173805 7. Adding OtherCC, Deviance = 1434.9751, Chi2Stat = 4.0031966, PValue = 0.045414057 Generalized linear regression model: status ~ [Linear formula with 8 terms in 7 predictors] Distribution = Binomial Estimated Coefficients: Estimate SE tStat pValue ________ ________ ______ __________ (Intercept) 0.70229 0.063959 10.98 4.7498e-28 CustAge 0.57421 0.25708 2.2335 0.025513 ResStatus 1.3629 0.66952 2.0356 0.04179 EmpStatus 0.88373 0.2929 3.0172 0.002551 CustIncome 0.73535 0.2159 3.406 0.00065929 TmWBank 1.1065 0.23267 4.7556 1.9783e-06 OtherCC 1.0648 0.52826 2.0156 0.043841 AMBalance 1.0446 0.32197 3.2443 0.0011775 1200 observations, 1192 error degrees of freedom Dispersion: 1 Chi^2-statistic vs. constant model: 88.5, p-value = 2.55e-16

输入参数

全部折叠

信用记分卡模型,指定为creditscorecard对象。使用creditscorecard创建一个creditscorecard对象。

名称-值对的观点

指定可选的逗号分隔对名称,值论点。的名字参数名和价值是对应的值。的名字必须出现在引号内。您可以按如下顺序指定几个名称和值对参数name1,value1,...,namen,valuen

例子:(sc, mdl) = fitmodel (sc、“VariableSelection”、“FullModel”)

预测变量的拟合creditscorecard对象,指定为逗号分隔的对,由“PredictorVars”还有一个字符向量的单元数组。当提供,creditscorecard对象属性预测索斯瓦尔斯是更新。注意,原始数据集中的预测器的顺序是强制的,而不管其顺序是什么“PredictorVars”提供。未提供时,预测器用于创建creditscorecard对象(通过使用creditscorecard使用)。

数据类型:细胞

适合逻辑回归模型的变量选择方法,指定为逗号分隔对组成“VariableSelection”还有一个带值的字符向量“逐步”“FullModel”

  • 逐步- 使用逐步选择方法来调用统计和机器学习工具箱™功能stepwiseglm.唯一的变量PredictorVars可以潜在地成为模型的一部分并使用起始模型名称-值对参数来选择启动模型。

  • ullmodel.-拟合模型与所有预测变量在PredictorVars名称-值对参数和调用fitglm

请注意

仅在PredictorVars财产的财产creditscorecard对象可以潜在地成为逻辑回归模型的一部分,并且只有线性术语包含在此模型中,没有交互或任何其他高阶项。

响应变量被映射为“Good”1和“坏”0

数据类型:char

初始模型逐步变量选择方法,由逗号分隔的对组成'histmodel'还有一个带值的字符向量“不变”“线性”.这个选项决定了统计和机器学习工具箱功能的初始模型(常量或线性)stepwiseglm开始。

  • 常数-以一个空(仅常量)模型开始逐步方法。

  • 线性- 从完整的(所有预测器中)模型启动逐步方法。

请注意

起始模型只用于逐步选择变形并且对此没有影响ullmodel.选择变形

数据类型:char

指示符,在命令行中显示模型信息,指定为逗号分隔的对,由'展示'和一个带值的字符向量“上”'离开'

数据类型:char

输出参数

全部折叠

信用记分卡模型,作为更新后的返回creditscorecard对象。的creditscorecard对象包含用于拟合祸数据的模型预测器和系数的信息。有关使用creditscorecard对象,看到creditscorecard

拟合的逻辑模型,作为类型对象返回GeneralizedLinearModel包含拟合模型的。如需更多信息GeneralizedLinearModel对象,看到GeneralizedLinearModel

请注意

创建时creditscorecard对象与creditscorecard,如果是可选的名称-值对参数WeightsVar用来指定观察(样本)的权重,那么mdl用加权计数stepwiseglmfitglm

更多关于

全部折叠

使用Fitmodel.与重量

当在信用记分卡中提供观测权重时数据,权值用于校正模型系数。

底层的统计和机器学习工具箱的功能stepwiseglmfitglm金宝app支持观察权重。重量也会通过WOE值影响物流模型。在拟合物流模型之前,WOE转换应用于所有预测器。观察重量直接影响WOE值。有关更多信息,请参阅使用bininfo与权重使用观察重量的信用记分卡建模

因此,信用记分卡点和最终得分通过逻辑模型系数和WOE值取决于观察权重。

楷模

逻辑回归模型用于该模型creditscorecard对象。

对于模型,“坏”的概率被定义为:exp(-s) / (1 + exp(-s))

参考

[1]安德森,R。信用评分工具包。牛津大学出版社,2007年。

[2] Refaat, M。信用风险记分卡:使用SAS开发和实现。lulu.com, 2011。

介绍了R2014b