老饼讲解-机器学习 机器学习 神经网络 深度学习
评分卡
1.评分卡开篇必读
2.评分卡实例
3.变量分析与分箱
4.评分卡上线

【 1 】评分卡实例-数据准备(特征工程)

作者 : 老饼 发表日期 : 2022-06-26 10:25:00 更新日期 : 2024-01-07 18:00:49
本站原创文章,转载请说明来自《老饼讲解-机器学习》www.bbbdata.com



接上文《评分卡实例-问题概述



  前文提要与本文概述  


上节我们已经介绍了用于建立评分卡的原始数据,
 本文我们讲述制作评分卡的第一步:数据准备
数据准备包括变量的选择和预处理,这一步骤也称为特征工程,
本文讲述评分卡的中如何进行特征工程,它是评分卡中最重要、最耗时的一步





   01. 评分卡-变量分箱与选择  



本节讲述如何将评分卡实例中的数据进行分箱与选择出可用的变量



     变量分析与选择     


在评分卡建模之前,我们需要先对变量进行分析,选择出入模的变量
变量的选择主要包括 变量分析、选择与分箱,三者是一起完成的
 它的目的是将原始变量变散化并从中选择出与y强相关的变量作为入模变量
变量分析的实际操作流程如下:
1. 将变量进行分箱                                                                            
2. 使用badRate趋势分析法(或iv法)分析哪些变量可以入模                 
  其中,badRate法分析过程如下:
 
1. 检查变量与badRate是否相关,确定该变量是否可以入模               
2. 对变量分箱 ,使变量与badrate的关系更明显                               
 备注:1和2是反复进行的,一边分箱,一边确定要不要该变量



    badRate法分析变量的例子   


以RevolvingUtilizationOfUnsecuredLines变量为例
 
(1) 先粗略分箱,试探变量的badRate趋势                                   
 示例如下:
 

(2) 如果变量的badRate有一定的趋势,就进一步对变量精细分箱
  示例如下:
 
✍️备注:所有变量的初探与分箱结果见附件




      评分卡实例-变量选择与分箱结果      


在本例中,所有变量与badRate都有明显的关系
因此以上10个变量都被选择用于建模
 将原始变量数据转为分箱数据,如下:
由于原变量名过长,原始变量换成新的变量名:
 
这里我们只是简单的描述和举例说明变量的分析、选择和分析,
详细的流程和结果,我们另外独立放在《变量分析》部分





     2. 评分卡变量-WOE转换     



本节讲解评分卡实例中将变量转为WOE的过程



     评分卡WOE转换    


通过变量分箱,我们将原数据映射成组号,进一步需要将组号映射为WOE值
 直接把组号作为特征变量值是不够理想的,因为组号是等距的,而badrate是不等距的
 
 
WOE转换过程  
 
 将组号转换为WOE值的转换过程如下:
 
1. 计算特征WOE映射表                                                       
特征WOE映射表记录特征的各个分组对应的WOE值    
 特征X第i组的WOE值计算如下:                     
 
 
 其中: 
      :坏样本总个数         
 
  :好样本总个数         
   
  :坏样本且X为第i组的个数 
  
: 好样本且X为第i组的个数
 2. 将特征取值转换为WOE值                                                
                按照特征WOE映射表,把特征的组别,映射成对应的WOE值即可



     WOE转换-举例说明     


     下面我们以特征 rev_grp转换WOE为例,说明转WOE的过程 
 1. 计算rev_grp的特征WOE映射表                                        
       即计算每个组别对应的WOE值,结果如下:                 
              
 2. 将特征取值转换为WOE值                                                 
       将特征将rev_grp的组别按特征WOE映射表,转换成woe数据
 转换前后的示例如下:
   



   关于转WOE的必要性   


虽然正规则流程里,必须将特征取值转为WOE值,
但在实际项目中,有些老同学并没有转WOE,老饼对这现象总结如下:

可转可不转WOE

如果在分箱阶段,组别是按badRate大小进行编号的,
转WOE对模型最终的效果不是非常明显,有些人会忽略WOE转换,主要嫌麻烦
可转可不转WOE
如果分箱阶段,不按badRate大小进行编号,此时badRate与组别不是单调关系,
这时,必须做 WOE转换,转WOE能使变量与badRate成单调关系




总的来说,我们先选出与客户质量强相关的变量作为入模变量,并将变量分箱离散化

然后再把数据转为WOE,以上工作就形成了评分卡的建模数据,下张文章我们再讲解如何使用这些数据进行建模





 End 




联系老饼