违约概率验证的模型判别与准确性比较

打开实时脚本

这个例子显示了默认概率(PD)模型验证的鉴别和准确性度量之间的一些差异。

风险管理工具箱™中的生命周期PD模型(参见fitLifetimePDModel)支金宝app持将接受者工作特征曲线下的面积(AUROC)作为判别(排序性能)指标，并将均方根误差(RMSE)作为精度(校准)指标。AUROC度量度量排名，而RMSE度量预测值的精度。这个例子表明，可以有:

同样的辨别，不同的准确度
同样的准确性，不同的辨别力

因此，将鉴别和准确性作为模型验证框架的一部分是很重要的。

PD模型判别和模型精度有几种不同的度量标准。有关更多信息，请参见参考文献．不同的度量标准可能具有不同的特征，本例中演示的行为不一定适用于其他鉴别和准确性度量标准。本例的目的是强调同时使用鉴别和准确性指标来评估模型预测的重要性。

加载和安装数据

加载信用数据，并适合物流寿命PD模型fitLifetimePDModel．

负载RetailCreditPanelData.matdata = join(data,dataMacro);pdModel = fitlifetime(数据，“物流”，.．.“AgeVar”，“小无赖”，.．.“IDVar”，“ID”，.．.“LoanVars”，“ScoreGroup”，.．.“MacroVars”, {“国内生产总值”，“市场”}，.．.“ResponseVar”，“默认”）;disp (pdModel)

具有属性的逻辑:ModelID: "Logistic"描述:""模型:[1x1 classreg.regr.]CompactGeneralizedLinearModel] IDVar: "ID" AgeVar: "YOB" LoanVars: "ScoreGroup" MacroVars: ["GDP" "市场"]responsear: "违约"

同样的辨别，不同的准确性

歧视只衡量客户的排名，即风险较高的客户是否比风险较低的客户获得更高的pd。因此，如果缩放概率或应用另一个单调变换得到有效概率，AUROC度量不会改变。

例如，将预测的pd乘以2，这将保留排名(差的客户具有更高的pd)。为了比较结果，将修改后的pd作为参考pd传递。

PD0 = predict(pdModel,data);Pd1 = 2* pd0;disp ([PD0 (1:10) PD1 (1:10)))

0.0090 0.0181 0.0052 0.0104 0.0044 0.0088 0.0038 0.0076 0.0035 0.0071 0.0036 0.0072 0.0019 0.0037 0.0011 0.0022 0.0164 0.0328 0.0094 0.0189

验证歧视措施不影响使用modelDiscriminationPlot．

modelDiscriminationPlot (pdModel、数据“DataID”，“分类”，“ReferencePD”PD1,“ReferenceID”，“缩放”）

图中包含一个轴对象。标题为ROC in-sample Logistic的坐标轴对象，AUROC = 0.69643 Scaled, AUROC = 0.69643包含2个类型行对象。这些对象表示逻辑的、缩放的。

使用modelAccuracyPlot将观察到的违约率与预测的违约概率(PD)进行比较。然而，这种变化严重影响了准确性。修改后的pd与观察到的违约率相差很远，修改后pd的RMSE比原始pd的RMSE高几个数量级。

modelAccuracyPlot (pdModel、数据“年”，“DataID”，“分类”，“ReferencePD”PD1,“ReferenceID”，“缩放”）

图中包含一个轴对象。标题为Scatter group by Year in-sample Logistic, RMSE = 0.00028571 Scaled, RMSE = 0.010892的坐标轴对象包含3个类型为line的对象。这些对象代表观察到的、逻辑的、缩放的。

相同的准确性，不同的辨别能力

另一方面，您也可以修改预测的pd以保持精度度量不变，并恶化辨别度量。

其中一种方法是在一个组内排列pd。这样做，每个组内的排名都会受到影响，但该组的平均PD没有变化。

rng (“默认”）;再现率%Pd1 = pd0;为年份=1997:2004;PDYear = PD0(Ind);PD1(Ind) = PDYear(randperm(length(PDYear)));结束

验证对修改后的pd使用的鉴别措施更差modelDiscriminationPlot．

modelDiscriminationPlot (pdModel、数据“DataID”，“分类”，“ReferencePD”PD1,“ReferenceID”，“排列”）

图中包含一个轴对象。标题为ROC in-sample Logistic, AUROC = 0.69643 Permutation, AUROC = 0.5678的坐标轴对象包含2个类型行对象。这些对象代表逻辑、排列。

的modelAccuracyPlot函数测量分组数据上pd的模型精度。只要组的平均PD不变，使用相同分组变量报告的准确性就不会改变。

modelAccuracyPlot (pdModel、数据“年”，“DataID”，“分类”，“ReferencePD”PD1,“ReferenceID”，“排列”）

图中包含一个轴对象。标题为Scatter group by Year in-sample Logistic的坐标轴对象，RMSE = 0.00028571排列，RMSE = 0.00028571包含3个类型行对象。这些对象代表观察到的、逻辑的、排列的。

这个例子表明，歧视和准确性指标并不一定携手并进。不同的预测可能有相似的均方根误差但有很大不同的均方根误差，或者相似的均方根误差但有很大不同的均方根误差。因此，将鉴别和准确性作为模型验证框架的一部分是很重要的。

参考文献

[1] Baesens, Bart, Daniel Roesch和Harald Scheule。信用风险分析:SAS中的测量技术、应用和示例。威利,2016年。

[2]巴塞尔银行监管委员会，“内部评级体系有效性研究”，工作文件第14期，2005。

另请参阅