参考链接

大数据风控模型拒绝推断与拒绝客户回捞

如何量化样本偏差对信贷风控模型的影响?

风控建模中的样本偏差与拒绝推断

模型偏差与拒绝推断的Python实现

https://zhuanlan.zhihu.com/p/111300597


背景

拒绝推断,增加负样本量,降低样本偏差

拒绝推断方法

拒绝推断是对一种“非随机性缺失数据”(MNAR)的处理形式。 总体来说有两种广泛的技术:分配法和增强法,一种依赖经验,一种依赖算法。两种技术还可以选择不同的方法。如下图所示:

Untitled

增量下探法(数据增量)

下探法就是在生产环境中某一段时间内,接受所有申请,积累全量数据。或者将模型评分cutoff的取值下移部分,让更多的的申请通过审批。等该批客户有了贷后表现,直接选择全量样本建模,这样会缩小样本数据和未来要预测的数据在分布上的偏差。

下探法可能要承受较大的坏账损失,有点花钱买数据的感觉,一般银行和机构通常不这么做,所以一般可用于通过率较高,坏账率对应也高的现金贷业务中。

短期坏账损失与长期风控优化之间需要做权衡。

分配法(打标签)