功能检查`screenpredictors`

打开生活的脚本

这个例子展示了如何执行预测筛查使用screenpredictors然后设置预测阈值使用阈值预测生活的任务。执行预测筛查是一种单变量分析作为一个早期的一步信用计分卡建模工作流程。预测筛查是一个重要的预处理步骤,当你使用信用计分卡作为数据集可以非常大,有数十或数百个潜力预测。

筛选预测的目标是削减预测集的一个子集,是更有用的预测响应变量的基础上计算指标。筛选使您能够选择排名的前预测由给定指标来训练你的信用计分卡。

加载数据

信用卡数据表包含一个用户ID (CustID)、9个预测和响应变量(状态)。一些风险因素更有用的预测贷款违约的概率,而其他人就没那么有用。筛选过程可以帮助您选择最好的预测因素子集。

虽然数据集在这个例子只包含几个预测,在实践中,信用计分卡可以非常大的数据集。预测指标筛选过程重要数据集长到包含数十或数百个预测因子。

%负载信用卡数据表。matFileName = fullfile (matlabroot,“工具箱”,“金融”,“findemos”,“CreditCardData”);加载(matFileName)%使用dataMissing数据集,其中包含一些缺失值。数据= dataMissing;%识别ID和响应变量。idvar =“CustID”;responsevar =“状态”;%检查表的结构。disp(头(数据));

CustID CustAge TmAtAddress ResStatus EmpStatus CustIncome TmWBank OtherCC AMBalance UtilRate ____ ____地位………………_____ _____ _____ ________ ________ 53 62 <定义>未知50000 55是的1055.9 - 0.22 0 2 61 22业主雇佣52000 25是的1161.6 - 0.24 0 3 47 30租户使用37000 61没有877.23 - 0.29 0 4南75业主雇佣了53000 20是的157.37 - 0.08 0 5 68 56家老板雇用了53000名14是的561.84 - 0.11 0 6 65 13业主雇用了48000名59岁是的968.18 - 0.15 0 7 34 32房主未知32000 26是的717.82 0.02 1 8 50 57其他雇佣了51000 33没有3041.2 - 0.13 0

添加额外的派生的预测

通常,导数预测可以捕获更多的信息或产生更好的度量结果;例如,两个预测或预测的比例转换为预测x,如x^ 2或日志(x)。为了说明这一点,创建两个派生的预测并将它们添加到数据集。

数据。BalanceUtilRatio =数据。AMBalance。/ data.UtilRate;数据。BalanceIncomeRatio =数据。AMBalance。/ data.CustIncome;

计算指标

使用screenpredictorspredictiveness计算若干措施的风险因素。输出表的列包含预测的度量值。信息表排序的值(InfoValue)。

T = screenpredictors(数据、“IDVar”idvar,“ResponseVar”responsevar)

T =11×7表_________________ InfoValue AccuracyRatio AUROC熵基尼Chi2PValue PercentMissing ____ ____ CustAge _________ _____ * * * 0.17698 0.1672 0.5836 0.88795 0.42645 0.0020599 0.025 0 CustIncome TmWBank 0.15719 0.13612 0.56806 0.89167 0.42864 0.0054591 0.15572 0.17758 0.58879 0.891 0.42731 0.0018428 0 0 TmAtAddress BalanceIncomeRatio 0.097073 0.1278 0.5639 0.90024 0.43303 0.11966 0.094574 0.010421 0.50521 0.90089 0.43377 0.182 0 0 AMBalance UtilRate 0.075086 0.035914 0.51796 0.90405 0.43575 0.45546 0.07159 0.087142 0.54357 0.90446 0.43592 0.48528 0 0 EmpStatus BalanceUtilRatio 0.068955 0.026538 0.51327 0.90486 0.43614 0.52517 0.048038 0.10886 0.55443 0.90814 0.4381 0.00037823 0 0 ResStatus OtherCC 0.014301 0.044459 0.52223 0.91347 0.44132 0.047616 0.0095558 0.049855 0.52493 0.91446 0.44198 0.29879 0.033333

设置的阈值标准

设置阈值的预测基于一个或多个指标。使用阈值预测生活任务交互地选择一个或多个阈值预测。在显示的情节预测,绿条表明通过阈值的预测和红酒吧表示不通过阈值的预测。你可以省略不“通过”阈值的预测从最终数据集。

使用阈值预测生活任务选择预测基于他们的信息价值(InfoValue)和准确性比(AccuracyRatio)。额外的阈值可以设置通过添加所需的指标使用选择阈值指标下拉控制。

筛选总结

总结表形式的阈值结果。的lableTable输出预测的生活任务指示,通过每个阈值测试。

disp (labelTable)

InfoValue AccuracyRatio _____ _________________ CustAge TmWBank传球传球CustIncome BalanceIncomeRatio传球传球TmAtAddress通过失败UtilRate失败失败AMBalance失败通过BalanceUtilRatio失败从失败EmpStatus失败通过OtherCC失败从失败ResStatus失败失败

减少表

创建一个只包含了表经过的预测因子。只选择阈值的预测,通过测试和创建一个简化数据集。

%选择通过预测至少2度量阈值测试。all_passes = labelTable。变量= =“通过”;pass_both_idx = 2 < = (all_passes, 2)总和;selected_predictors = T.Row (pass_both_idx);%的数据表只包含ID,通过预测,%的回应。top_predictor_table =数据(:,[idvar;selected_predictors;responsevar]);

使用creditscorecard创建一个creditscorecard使用简化数据集对象。

%创建信用计分卡使用预测因子的筛选。sc = creditscorecard (top_predictor_table,“IDVar”idvar,“ResponseVar”responsevar,…“BinMissingData”,真正的)

sc = creditscorecard属性:GoodLabel: 0 ResponseVar:“地位”WeightsVar:“VarNames: {1} x6细胞NumericPredictors: {1 x4细胞}CategoricalPredictors: {1} x0细胞BinMissingData: 1 IDVar:“CustID”PredictorVars: {1 x4细胞}数据:[1200 x6表)

发展信用计分卡的更多信息,见创建信用计分卡。