老饼讲解-机器学习 机器学习 神经网络 深度学习
评分卡
1.评分卡开篇必读
2.评分卡实例
3.变量分析与分箱
4.评分卡上线

评分卡-技术栈与变量分析方法

作者 : 老饼 发表日期 : 2022-11-21 02:19:56 更新日期 : 2022-11-21 14:49:02
本站原创文章,转载请说明来自《老饼讲解-机器学习》www.bbbdata.com



评分卡中的变量分析(数据预处理)一般是指分析出哪些变量与y相关,

但实际中也包括了"对数据的清洗"和"对变量进行分箱"两项工作。

本文综合介绍实际项目中变量分析常用的技术,通过本文大概了解相关技术的内容。



   01. 变量分析常用方法   



    Base方法-BadRate分析法    


评分卡中最Base的传统方法是Badrate分析方法,
Badrate方法是先对x进行分组,
然后分析每组x的Badrate是否有趋势来确定x是否与y相关,
并通过调整分组逻辑,使x分组后与y的关系更加稳定、明显。
Badrate的分组逻辑必须符合业务逻辑,
这使得分组后每个变量都是符合业务逻辑的,
使得训练出来的模型也更加符合业务逻辑。
可以说,Badrate方法整个是用业务逻辑在保驾护航。



    自动化方法-iv法    


BadRate方法自身基于业务逻辑,
好处是训练后的模型更贴切业务逻辑,
但必须投入分析师大量的人力、时间,
去精细磨炼。
但有些时候,需要自动化,那么Badrate法就不行了。
就产生了一套自动化建立评分卡的方法,
它需要解决两个问题
1、自动分箱       
2、自动筛选变量
自动分箱常用的算法有决策树分箱、最大KS分箱、卡方分箱等,
筛选变量则根据分箱后的IV值来确定变量是否有效。
也就用iv+自动分箱算法来完成




    02. 小贷建模技术栈    



    关于小贷评分模型的技术栈    


小贷评分模型中存在两条比较常见的技术栈
 传统方法    :Badrate法+评分卡模型                              
 自动化方法 :人工变量池+自动分箱+IV选变量+评分模型
说是技术栈,也可以说是技术派系,我们不妨简称为Badrate系和IV系



     Badrate系     


Badrate系的重心与焦点是重业务,
每个环节都需要经得起业务逻辑的考验,
往往最终入模的变量也不过20多个。



     IV系     


IV系则是重数据,
它的每个环节基本都尽量自动化,
先拼命往变量池里丢一大堆变量,
然后通过后面的自动分箱,自动变量筛选和建模,得到最终的模型。
IV系更看重的是数据上的表现效果,而不需要模型具有可解释性,
因此使用的模型也不局限于逻辑回归,
更多时候是什么模型在数据上的表现好,就用什么模型,
目前一般更倾向于使用xgboost。



   实际应用   


以上只是较为极端地描述两条技术栈,
在实际中,两条技术栈不是完全平行的,会综合使用
例如BadRate系,
也会使用一些自动化技术来辅助整个建模过程,
例如,看下IV值来确定变量要不要用,
或者,借鉴下自动分箱结果优化自己的分箱逻辑。
只是不管怎么样,Badrate系整个建模始终用"业务的眼光"监督着。
再如一个IV系,
也不是完全对业务逻辑不闻不问,
也可能是半自动化,
用自动分箱+IV法筛选掉大量变量后,
再看所有变量的BadRate分析趋势,
筛掉完全经不住业务考验的变量。
等等....,
只是不管怎么样,IV系最关心的是,
模型使用了哪些数据,最终模型的预测表现如何。



    03. 技术派系泛谈   



    空唬外行人   


如果你听到某公司,使用金融数据技术,综合了客户数百个变量,评出用户的质量,那这一定是IV系。
行外人一听,
一个模型用了数百个变量
,而另一个公司只用了20个变量,
感觉用了数百个变量很牛X,
但经过本文,我们就了解它们到底是怎么回事了。
虽然BadRate系只用了20个变量,
但这20个变量都是高质量的,
这20个变量有业务逻辑兜底的,是很有保障的模型,
而IV系的模型用了数百个变量的,但里面的变量并不都那么可靠,
哪天出了幺蛾子谁也说不清怎么回事



     技术栈的选择     


两种派系并非只有单纯的建模方法,
各自沉淀的还有自己独有的一套运营方法,
没有哪种更好,只有哪种更适合。
例如,
你在一家银行,那么,肯定就是走Badrate系了,
这是综合因素决定的,并非哪种建模方法更优。
选用哪种,并非是由建模师决策,
而是由企业上层的基因、资源、战略、需求等等决定。
如果真的由建模师拍板采用哪套技术栈,
那么,建模师也是综合以上因素,
确定哪个派系的思想更适合公司的水土,
进而决定使用哪套,而非技术本身。








 End 










联系老饼