老饼讲解-机器学习 机器学习 神经网络 深度学习
评分卡
1.评分卡开篇必读
2.评分卡实例
3.变量分析与分箱
4.评分卡上线

评分卡-变量选择(iv法)

作者 : 老饼 发表日期 : 2022-06-26 10:32:13 更新日期 : 2022-11-21 15:20:09
本站原创文章,转载请说明来自《老饼讲解-机器学习》www.bbbdata.com



IV值筛选变量也是小贷风控模型中常用的选择变量的方法

本文讲解IV值筛选变量的方法和具体计算例子



   01. IV法筛选变量简介   


     IV筛选变量方法    


IV筛选变量方法较为简单,
先对变量进行离散化,然后用变量与y计算IV值,最后筛选掉IV较低的变量
如下:




   02. IV值的计算与意义   


下面我们介绍IV值的计算方法的它背后的意义


   IV的计算公式   


IV的计算公式如下:

 

简记为
 
 


其中:                                                 
     :坏样本总个数                   
   :坏样本且X为第i组的个数  
 :好样本且X为第i组的个数  
    :好样本总个数                  
备注:IV公式里的  即  



    IV值的意义   


IV值的意义是坏客户在每组的分布,与好客户在每组的分布的差异。
IV值越高,说明分布的区分度越高,也就是变量对区分y的作用越大,
也就是说,IV值越高,变量的价值越高
一般来说,
IV < 0.02 :几乎没有区分度,        
0.02 <= IV < 0.1   :有微弱的区分度;                      
0.1 <= IV < 0.3   :有明显的区分度;                   
0.3 <= IV             :较强的区分度                          
实际中,IV值大于0.1的变量都保留下来,进行下一步分析




    03. IV值筛选变量例子   


下面我们通过一个例子,具体讲解如何使用IV值筛选变量


   问题   


现有数据如下,
  

  
问该变量可不可以入模


    IV筛选变量过程   


统计好坏样本在各组的分布如下:
 

 
利用好坏客户的分布,算得IV值如下:

 
得到性别的IV值为0.49
说明该变量价值较高,可以选择入模




   04. 实际操作流程总结  


IV值初筛变量具体流程如下:


1. 统计所有变量的IV值       
2. 只筛选IV值>0.1的变量   

如果变量过多,可以将0.1调为0.2



   补充说明  


IV值小并不说明变量完全无效。
所以IV值有误杀的风险。
它是变量过多(例如几百个变量)时进行初筛的一种方法。






 End 









联系老饼