老饼讲解-机器学习 机器学习 神经网络 深度学习
评分卡
1.评分卡开篇必读
2.评分卡实例
3.变量分析与分箱
4.评分卡上线

评分卡-模型上线后的监控-PSI

作者 : 老饼 发表日期 : 2022-06-26 10:22:23 更新日期 : 2022-11-21 15:19:32
本站原创文章,转载请说明来自《老饼讲解-机器学习》www.bbbdata.com


在评分卡上线后,需要监控人群评分分布、特征分布是否与建模时一致。

一般用 人群稳定度指标PSI(population stability index)进行监控。

本文讲解PSI指标的计算与应用,及PSI的推导原理。



  01. PSI计算公式  


   什么是PSI   


PSI的全称为 人群稳定度指标(population stability index),
它的意义是评估线上的评分分布与建模时使用的样本的评分分布的差异。

在评分卡上线后,由于不同时间段,模型面向的人群可能会变迁。
人群变迁后可能对模型有所影响,需要进行调整。
所以需要用PSI来监控线上人群评分分布、特征分布是否与建模时一致。


   PSI计算公式   


PSI 的计算公式为:



其中:
  :线上(实际) 第i组的占比。即线上观察到的第i组样本数/总样本数             
       
  :期望第i组的占比(即建模时第i组的占比).即建模时第i组样本数/总样本数



   02.  PSI的意义与应用   


PSI值的意义是期望分布(建模时数据的分布)与实际分布(线上数据的分布) 的差异,


日常应用我们一般如下:


                    PSI <  0.1   :两分布差异小,一般不需作任何操作                                                  
0.1<=PSI <  0.25 :两分布有一定差异,需要引起注意。有必要需要采取一定策略  
PSI >=0.25 :两分布差异明显,需要采取策略。                                




   03.  PSI原理   


PSI原理与IV原理一致。

本质是求期望(线下建模时)分布与实际(线上)分布的差异。


   (一) 分布的距离-KL散度    


信息论中,评估两个分布的距离(差异),可以用KL散度来评估。

分布 P(x)与分布 Q(x) 的KL散度(距离)为: 



备注:P、Q的KL散度 不等于 Q、P 的KL散度。


   (二) 线上、线下分布的距离   


 已知:线上(模型上线后)客户在每组的分布为:​​       
     
     线下(建模时)客户在每组的分布为:      
 分布E 相对于A 的距离(KL散度) 为:



分布A 相对于E 的距离(KL散度) 为:

两距离之和则为总差异PSI:

                       
 


                                     





 End 








联系老饼