当创建一个creditscorecard
对象,用于输入的表数据
论证定义或不定义观测权重。如果数据
不用砝码,那么“计数”有什么用呢好
,坏
,几率
是由信用卡功能使用的。但是,如果是可选的WeightsVar
参数在创建时指定creditscorecard
对象,则“计数”为好
,坏
,几率
是权重的总和。
例如,这里有一个输入表的片段,它没有定义观察权值:
如果你将客户年龄预测数据进行分类,将45岁以下的客户放在一个分类箱中,将46岁以上的客户放在另一个分类箱中,你会得到以下统计数据:
好
表示a的总行数0
的价值状态
响应变量。坏
的数量1
的年代状态
列。几率
为好
来坏
.的好
,坏
,几率
为每个容器报告。这意味着样本中有381人年龄在45岁及以下,他们偿还了贷款,241人在相同的年龄范围内违约,因此,在这个年龄范围内,良好的概率是1.581
.
假设建模者认为45岁及以下的人在这个样本中代表性不足。建模者想要给年龄在45岁以下的所有行一个更高的权重。假设建模者认为45岁以下的人的体重应该比46岁及以上的人多50%。表数据被扩展到包括观察权值。一个重量
列添加到表中,其中年龄为45及以下的所有行权重为1.5
,而其他所有行的权重为1
.使用权重还有其他原因,例如,最近的数据点可能比以前的数据点拥有更高的权重。
如果你将基于年龄(45岁及以下,而不是46岁及以上)的加权数据进行分类,预期是每一行45岁及以下的数据必须算作1.5个观察值,因此好
和坏
“计数”增加50%:
“计数”现在是“加权频率”,不再是整数值。的几率
不要为第一个箱子改变。本例中给出的特定权重具有缩放总权重的效果好
和坏
以相同的比例因子计数第一个箱子,因此它们的比例不改变。然而,几率
总样本值会发生变化;第一个箱子现在有更高的权重,因为在那个箱子里的概率更低,总的几率
现在也更低了。此处未显示的其他信用记分卡统计数据,例如有祸了
和信息的价值
受到类似的影响。
一般来说,权重的作用不是简单地按比例调整特定容器中的频率,因为该容器中的成员拥有不同的权重。本例的目的是演示从计数转换为权值和的概念。
creditscorecard
|autobinning
|bininfo
|fitmodel
|validatemodel