计算分数creditscorecard对象的约束为等式,不等式,或逻辑回归模型的系数的界限,使用fitConstrainedModel.不像fitmodel,fitConstrainedModel同时求解无约束和有约束问题。用于最小化目标函数的当前求解器fitConstrainedModel是铁铬镍铁合金,从最优化工具箱™。
这个例子有三个主要部分。首先,fitConstrainedModel用于解决无约会模型中的系数。然后,fitConstrainedModel演示如何使用几种类型的约束。最后fitConstrainedModel使用自举进行显著性分析,以确定从模型中拒绝哪些预测因子。
创建creditscorecard对象和Bin数据
无约束模型fitConstrainedModel
用迭代法求解无约束系数fitConstrainedModel具有输入参数的默认值。fitConstrainedModel使用内部优化解算器铁铬镍铁合金从最优化工具箱™。如果不设置任何约束,铁铬镍铁合金将该模型视为一个无约束优化问题。的默认参数下面和UpperBound是负和+正分别地对于等式和不等式约束,默认值为空数值数组。
估计_________(拦截)0.70246保管0.6057 TMATADDRESS 1.0381 Resstatus 1.3794 EMPSTATUS 0.89648询问0.70179 TMWBANK 1.1132其他COL 1.0598 Abshance 1.0572 Utilerrate -0.047597
不像fitmodel给<年代p一个class="emphasis">p-值,当使用fitConstrainedModel,当受到约束时,您必须使用bootstrapping来找出哪些预测器被模型拒绝。这在“重要性引导”一节中进行了说明。
使用fitmodel比较结果并校正模型
fitmodel
将逻辑回归模型适用于证据权重(WOE)数据,并且没有约束。您可以将“使用fitConstrainedModel的无约束模型”部分的结果与fitmodel验证模型的校准情况。
现在,通过使用解决不受约束的问题fitmodel.请注意,fitmodel和fitConstrainedModel使用不同的解决者。而fitConstrainedModel使用铁铬镍铁合金,fitmodel使用逐步GLM默认情况下。要从一开始就包括所有预测值,请设置'variableelection'的名称-值对参数fitmodel到“fullmodel”.
估计SE TSTAT p值_________ ________ _________ __________(截距)0.70246 0.064039 10.969 5.3719e-28 CustAge 0.6057 0.24934 2.4292 0.015131 TmAtAddress 1.0381 0.94042 1.1039 0.26963 1.3794 ResStatus 0.6526 2.1137 0.034538 EmpStatus 0.89648 0.29339 3.0556 0.0022458 CustIncome 0.70179 0.21866 3.2095 0.0013295 TmWBank 1.1132 0.23346 4.7683 1.8579e-06其他CCC 1.0598 0.53005 1.9994 0.045568 AMMALANCANCE 1.0572 0.36601 2.8884 0.0038718 USILRATE -0.047597 0.61133 -0.077858 0.93794 0.93794 0.93794
作为表格和绘图显示,模型系数匹配。你可以相信这一实施fitConstrainedModel校准。
约束模型<年代p一个我d="function_fitconstrainedmodel_sep_CreditscorecardConstrainedLogisticRegressCoeffsExample-4" class="anchor_target">
在约束模型方法中,您需要求解系数的值<年代p一个class="inlineequation">
logistic模型,受约束。受支持的金宝app约束有bound、equal或不等式。这些系数最大化了定义的默认概率函数,以供观察<年代p一个class="inlineequation">
,作为:
在哪里:
是未知的模型系数吗
是观察时的预测值<年代p一个class="inlineequation">
为响应值;1表示默认值,0表示非默认值
这个公式适用于非加权数据。当观察<年代p一个class="emphasis">我有重量<年代p一个class="inlineequation">
,这意味着有<年代p一个class="inlineequation">
尽可能多的观察<年代p一个class="emphasis">我.因此,默认发生在观察时发生的概率<年代p一个class="emphasis">我是默认概率的乘积:
同样,加权观察非违约概率<年代p一个class="emphasis">我是:
对于加权数据,如果给定观测值存在默认值<年代p一个class="emphasis">我的重量是<年代p一个class="inlineequation">
,就好像有一个<年代p一个class="inlineequation">
一个观察值的计数,所有这些值要么都是默认值,要么都是非默认值。<年代p一个class="inlineequation">
可以是整数,也可以不是整数。
因此,对于加权数据,采用违约概率函数进行观测<年代p一个class="emphasis">我在第一个等式中变成了
根据假设,所有默认值都是独立事件,因此目标函数为
或者,以更方便的对数术语:
在系数上应用约束
按照“使用fitConstrainedModel的无约束模型”一节中的说明校准无约束模型后,您可以求解受约束的模型系数。您可以选择上下限,以便<年代p一个class="inlineequation">
,除了拦截。此外,由于客户年龄和客户收入在某种程度上是相关的,您还可以对它们的系数使用额外的约束,例如,<年代p一个class="inlineequation">
. 对应于预测器的系数“CustAge”和“收入”在本例中是<年代p一个class="inlineequation">
和<年代p一个class="inlineequation">
,分别。
引导意义<年代p一个我d="function_fitconstrainedmodel_sep_CreditscorecardConstrainedLogisticRegressCoeffsExample-6" class="anchor_target">
对于无约束问题,可用标准公式进行计算<年代p一个class="emphasis">p-值,用于评估哪些系数是重要的,哪些系数将被拒绝。然而,对于约束问题,没有标准的公式,推导公式的重要性分析是复杂的。一个可行的选择是通过执行意义分析<年代p一个class="emphasis">引导.
在引导方法中,当使用fitConstrainedModel,则设置name-value参数“自举”到符合事实的并为name value参数选择了一个值“BootstrapIter”.引导意味着<年代p一个class="inlineequation">
从原始观测中选择样本(有替换)。在每个迭代中,fitConstrainedModel求解与“约束模型”部分相同的约束问题。fitConstrainedModel得到每个系数的几个值(解)金宝搏官方网站<年代p一个class="inlineequation">
你可以把这些画成a箱形图或柱状图.使用箱线图或直方图,您可以检查中值,以评估系数是否偏离零,以及系数偏离其平均值的程度。
Boxpot中的固体红线表明中值值和底部和顶部边缘是为<年代p一个class="inlineequation">
和<年代p一个class="inlineequation">
百分位数。“晶须”是最小和最大值,而不是包括异常值。虚线表示系数上的下限和上限约束。在该示例中,通过构造,系数不能为负。
为了帮助确定哪些预测因子保持在模型中,评估每个系数为零的次数的比例。
根据绘图,可以拒绝“UtilRate”因为它有最多的零值。你也可以决定拒绝“TmAtAddress”因为它显示了一个峰值,尽管很小。
设置相应的系数为零
要将相应的系数设置为零,请将其上限设置为零,然后使用原始数据集再次求解模型。
将约束系数设置回creditscorecard
既然你已经解出了约束系数,使用setmodel.设置模型的系数和预测器。然后,您可以计算(未加工)的点。
预测本点 ______________ _____________________ _________ {' CustAge’}{[无穷,33)的-0.16725}{‘CustAge}{[33岁,37)的-0.14811}{‘CustAge}{[37、40)的-0.065607}{‘CustAge}{[40岁,46)的0.044404}{‘CustAge}{[46岁,48)的0.21761}{‘CustAge}{[48, 58)的0.23404}{“CustAge”}{的[58岁的Inf]} 0.49029{‘CustAge}{“失踪> <”}NaN{'EmpStatus'} {'EmpStatus'} {'EmpStatus'} {'Employed'} 0.31459 {'EmpStatus'} {'CustIncome'} {'[-Inf,29000)'} -0.43795 {'CustIncome'} {'[29000,33000)'} -0.097814 . {' status '} {'EmpStatus'} {'EmpStatus'} {'EmpStatus'}{‘CustIncome}{[33000、35000)的0.053667}{‘CustIncome}{[35000、40000)的0.081921}{‘CustIncome}{[40000、42000)的0.092364}{‘CustIncome}{[42000、47000)的0.23932}{‘CustIncome}{”(47000年,正)}0.42477{‘CustIncome}{“失踪> <”}南{‘TmWBank}{[无穷,12)的-0.15547}{‘TmWBank}{[12、23)的-0.031077}{‘TmWBank}{' 45(23日)}-0.021091{‘TmWBank}{[71)的0.36703}{‘TmWBank}{”(71年,正)}0.86888{‘TmWBank}{“失踪> <”}南{‘OtherCC}{‘不’}-0.16832{‘OtherCC}{'是的'}0.15336{‘OtherCC}{“失踪> <”}南{‘AMBalance}{[无穷,558.88)的0.34418}{‘AMBalance}{[558.88, 1254.28)的-0.012745}{‘AMBalance} {-0.057879} [1254.28, 1597.44){' AMBalance}{'[1597.44,正]}-0.19896{‘AMBalance}{“失踪> <”}NaN
使用未加工的点,您可以遵循其余的信用记分卡建模工作流程计算分数和默认概率,并验证模型。