主要内容

利用观测权建立信用记分卡模型

当创建一个creditscorecard对象,用于输入的表数据论证定义或不定义观测权重。如果数据不用砝码,那么“计数”有什么用呢,几率是由信用卡功能使用的。但是,如果是可选的WeightsVar参数在创建时指定creditscorecard对象,则“计数”为,几率是权重的总和。

例如,这里有一个输入表的片段,它没有定义观察权值:

用于创建信用记分卡对象的输入表片段

如果你将客户年龄预测数据进行分类,将45岁以下的客户放在一个分类箱中,将46岁以上的客户放在另一个分类箱中,你会得到以下统计数据:

45岁以下的一个垃圾桶和46岁以上的第二个垃圾桶的“好”和“坏”统计数据

表示a的总行数0的价值状态响应变量。的数量1的年代状态列。几率.的,几率为每个容器报告。这意味着样本中有381人年龄在45岁及以下,他们偿还了贷款,241人在相同的年龄范围内违约,因此,在这个年龄范围内,良好的概率是1.581

假设建模者认为45岁及以下的人在这个样本中代表性不足。建模者想要给年龄在45岁以下的所有行一个更高的权重。假设建模者认为45岁以下的人的体重应该比46岁及以上的人多50%。表数据被扩展到包括观察权值。一个重量列添加到表中,其中年龄为45及以下的所有行权重为1.5,而其他所有行的权重为1.使用权重还有其他原因,例如,最近的数据点可能比以前的数据点拥有更高的权重。

表显示取决于CustAge预测器的权重

如果你将基于年龄(45岁及以下,而不是46岁及以上)的加权数据进行分类,预期是每一行45岁及以下的数据必须算作1.5个观察值,因此“计数”增加50%:

表片段演示了权重对“好”和“坏”的影响

“计数”现在是“加权频率”,不再是整数值。的几率不要为第一个箱子改变。本例中给出的特定权重具有缩放总权重的效果以相同的比例因子计数第一个箱子,因此它们的比例不改变。然而,几率总样本值会发生变化;第一个箱子现在有更高的权重,因为在那个箱子里的概率更低,总的几率现在也更低了。此处未显示的其他信用记分卡统计数据,例如有祸了信息的价值受到类似的影响。

一般来说,权重的作用不是简单地按比例调整特定容器中的频率,因为该容器中的成员拥有不同的权重。本例的目的是演示从计数转换为权值和的概念。

另请参阅

||||

相关的话题