第五课:综合应用
评估指标
【拓展】AUC的使用经验值
作者 : 老饼 日期 : 2022-06-28 13:22:11 更新 : 2022-09-27 17:17:44
本站原创文章,转载请说明来自《老饼讲解-机器学习》ml.bbbdata.com


本文通过一个小实验进行分析,说明AUC值与模型效果的关系




   前言   


一般来说,二分类模型需要通过挑选适合业务的【查全率,虚警率】组合,来确定阈值的划分。
 那么,AUC要达到多少,
 
我们才挑具体的【查全率,虚警率】组合对呢?


我们通过以下实验进行一些感性认知。



  AUC小实验  




  实验数据生成  


分别由 和  生成两组数据,
它们的AUC分别为0.664和0.745,
 数据与ROC曲线如下:

在AUC=0.664的FPR-TPR里,我们挑得性价比比较好的组合是:查全率,虚警率 [0.32,0.1]
 
在AUC=0.745的FPR-TPR里,我们挑得性价比比较好的组合是:查全率,虚警率 [0.58,0.2]


  AUC-0.664的评价  


对于一般业务来说,
投入20%的虚警成本,排查出58%的目标样本,
应该是挺有价值了。

例如,小贷中,
虽然损失了20%的好客户,
但是排掉了58%的坏客户。
58%坏客户带来的损失远远大于20%好客户带来的利润,
那这时候使用模型的价值就非常明显了。


  AUC-0.745的评价  


对于一般业务来说,
投入10%的虚警成本,排查32%的目标样本,
虽然也是有价值,但排查出的目标样本占比还是过少了。
因此,0.66的AUC不是不可用,
这时候模型已经是有区分度了,
只是对于实际使用,力度不够。


  实验总结  


AUC=0.666 代表模型对目标样本已经有初步的识别度。
AUC=0.745 代表模型不仅有识别度,对目标样本还有较大的识别力度。

用人话来说,0.66代表模型还弱,还需要继续优化,0.75代表模型基本已经有不错的商用价值了。




  编后语  

以上都为实验数据,细节仅为参考,但本实验结论与实际项目中经验结论基本是一致的。







 End 





联系小饼