ScreenPredictors.

筛选信用记分卡预测值

描述

例子

metric_table.= screenPredictors(数据)返回输出变量,metric_table.,一个matlab.®中每个预测变量的几个预测能力度量的计算值数据.使用ScreenPredictors.函数中的预处理步骤信用记分卡建模工作流(Financial Toolbox)来减少预测变量的数量,然后使用creditscorecardFinancial Toolbox™功能。

例子

metric_table.= screenPredictors(___名称,价值)除了以前语法中的输入参数之外,使用一个或多个名称值对参数指定选项。

例子

崩溃

在创建信用记分卡之前,通过筛选预测变量来减少预测变量的数量。

使用CreditCarddata.mat.文件加载数据(使用来自Refaat 2011的数据集)。

负载CreditCardData.

定义'idvar'“ResponseVar”

idvar =“CustID”;responsevar =“状态”

使用ScreenPredictors.计算预测器筛选度量。该函数返回包含度量值的表。每个表行对应于来自输入表数据的预测器。

metric_table = screenpredictors(数据,'idvar',idvar,“ResponseVar”,响应官员)
metric_table =.9×7表InfoValue AccuracyRatio AUROC Entropy Gini Chi2PValue PercentMissing _________ _____________ ______________ _______ __________ ______________ CustAge 0.18863 0.17095 0.58547 0.88729 0.42626 0.00074524 0 TmWBank 0.15719 0.13612 0.56806 0.89167 0.42864 0.0054591 0 CustIncome 0.15572 0.17758 0.58879 0.891 0.42731 0.0018428 0 TmAtAddress 0.0945740 AMBalance 0.07159 0.087142 0.90446 0.43592 0.48528 0 EmpStatus 0.048038 0.10886 0.55443 0.90814 0.4381 0.00037823 0 OtherCC 0.014301 0.044459 0.52223 0.91347 0.44132 0.047616 0 ResStatus 0.097738 0.05039 0.5252 0.91422 0.44182 0.27875 0
metric_table = sortrows (metric_table,“AccuracyRatio”“下”)
metric_table =.9×7表INFOVALUE AccuracyRatio AUROC熵基尼Chi2PValue PercentMissing _________ _____________ _______ _______ _______ __________ ______________ CustIncome 0.15572 0.17758 0.58879 0.891 0.42731 0.0018428 0 CustAge 0.18863 0.17095 0.58547 0.88729 0.42626 0.00074524 0 TmWBank 0.15719 0.13612 0.56806 0.89167 0.42864 0.0054591 0 EmpStatus 0.048038 0.10886 0.55443 0.90814 0.4381 0.00037823 0 AMBalance 0.07159 0.087142 0.543570.90446 0.43592 0.48528 0 ResStatus 0.0097738 0.05039 0.5252 0.91422 0.44182 0.27875 0 OtherCC 0.014301 0.044459 0.52223 0.91347 0.44132 0.047616 0 UtilRate 0.075086 0.035914 0.51796 0.90405 0.43575 0.45546 0 TmAtAddress 0.094574 0.010421 0.50521 0.90089 0.43377 0.182 0

基于这一点Solutio.参数,选择在创建时要使用的顶级预测器creditscorecard对象。

varlist = metric_table.row(metric_table.accuracyratio> 0.09)
varlist =4x1细胞阵列{'custincome'} {'custage'} {'tmwbank'} {'empstatus'}

使用creditscorecard创建一个Creakescorecard.对象仅基于“筛选的”预测器。

sc = creditscorecard(数据,'idvar',idvar,“ResponseVar”,responsevar,“PredictorVars”,Varlist)
sc = creditscorecard带有属性:goodlabel:0 responsevar:'status'fightsvar:''varnames:{1x11 cell} numericpredictors:{'custage''custincome''tmwbank'} cateoricalpricictors:{'empstatus'} binmissingdata:0 idvar:'Custide'预测orvars:{'监护''empstatus''custincome''tmwbank'}数据:[1200x11表]

输入参数

崩溃

数据creditscorecard对象,指定为MATLAB表,其中每一列数据可以是下列任意一种数据类型:

  • 数字

  • 逻辑

  • 字符向量的单元格阵列

  • 字符阵列

  • 分类

  • 字符串

数据类型:表格

名称值对参数

指定可选的逗号分隔的对名称,价值论点。的名字参数名和价值是相应的价值。的名字必须出现在引号内。您可以以任何顺序指定多个名称和值对参数name1,value1,...,namen,valuen

示例:metric_table = screenpredictors(数据、‘IDVar’、‘CustAge’,‘ResponseVar’,‘身份’,‘PredictorVars’,{‘CustID’,‘CustIncome})

标识符变量的名称,指定为逗号分隔的对,由'idvar'以及区分大小写的字符向量。的'idvar'数据可以是序号或社会安全号码。通过指定'idvar',您可以很容易地从预测变量中省略标识符变量。

数据类型:char

“Good”或“Bad”指示符的响应变量名,指定为逗号分隔对组成“ResponseVar”以及区分大小写的字符向量。响应变量数据必须是二进制的。

如果不指定,“ResponseVar”设置为输入的最后一列数据默认情况下。

数据类型:char

预测器变量的名称,指定为逗号分隔对组成“PredictorVars”以及字符向量或字符串数组的区分大小写的单元格数组。默认情况下,当您创建creditscorecard对象中,所有变量都是预测器,除了IDVarResponseVar.您使用的任何名称“PredictorVars”必须不同于IDVarResponseVar的名字。

数据类型:细胞|字符串

权重变量的名称,指定为逗号分隔的对“WeightsVar”和一个区分敏感的字符向量,以指示哪个列名称数据表包含行权重。

如果没有指定“WeightsVar”当你创建creditscorecard对象,然后该功能使用单位权重作为观察权重。

数据类型:char

数字预测器的(等频率)箱数,指定为包括的逗号分隔对“NumBins”和标量数字。

数据类型:双人间

包含零项的频率表中的小偏移,指定为由…组成的逗号分隔对'频率休息'和标量数字,之间的值01

如果预测器的频率表包含使用数据使用后包含任何“纯”箱(包含所有商品或全部坏)autobinning,然后该函数添加了'频率休息'值为表中所有容器的值。为了避免任何干扰,设置'频率休息'0

数据类型:双人间

输出参数

崩溃

计算预测器筛选度量的值,作为表返回。每个表行对应于来自输入表数据的预测器。表列包含以下度量标准的计算值:

  • 'infovale'- 信息价值。该度量通过确定分布之间的偏差来测量拟合模型中的预测器的强度“货物”“坏事”

  • “AccuracyRatio”——精度比。

  • “AUROC”- ROC曲线下面积。

  • “熵”——熵。这个指标衡量的是容器中的不可预测性水平。您可以使用熵度量来验证风险模型。

  • 'gini'- 基尼。该度量测量数据样本中的统计色散或不等式。

  • “Chi2PValue”——卡方p- value。从Chi-Square指标计算该度量,并且是统计差异和组之间的独立性的度量。

  • “PercentMissing”-预测器中缺失值的百分比。这个度量是用小数形式表示的。

介绍了R2019a