第六课:综合应用
评估指标
【拓展】AUC的使用经验值
作者 : 老饼 日期 : 2022-06-28 13:22:11 更新 : 2022-12-02 19:35:04
本站原创文章,转载请说明来自《老饼讲解-机器学习》ml.bbbdata.com


本文通过一个小实验进行分析,加深理解AUC值与模型效果的关系




   本文背景   


一般来说,二分类模型需要通过挑选适合业务的【查全率,虚警率】组合,来确定阈值的划分
 那么,AUC要达到多少,我们才挑具体的【查全率,虚警率】组合对呢?
 本文以一个实验来作为参考经验,建立感性认知





  AUC小实验  




  实验数据生成  


分别由 和  生成两组数据,
它们的AUC分别为0.664和0.745,
 数据与ROC曲线如下:
 在AUC=0.745的FPR-TPR里,我们挑得性价比比较好的组合是:查全率,虚警率 [0.2,0.58]
 
在AUC=0.664的FPR-TPR里,我们挑得性价比比较好的组合是:查全率,虚警率 [0.1,0.32]


  AUC=0.745的评价  


对于一般业务来说,
投入20%的虚警成本,排查出58%的目标样本,
应该是挺有价值了。

例如,小贷中,
虽然损失了20%的好客户,
但是排掉了58%的坏客户。
58%坏客户带来的损失远远大于20%好客户带来的利润,
那这时候使用模型的价值就非常明显了。



  AUC=0.664的评价  


对于一般业务来说,
投入10%的虚警成本,排查32%的目标样本,
虽然也是有价值,但排查出的目标样本占比还是过少了。
因此,0.66的AUC不是不可用,
这时候模型已经是有区分度了,
只是对于实际使用,力度不够。



  实验总结  


AUC=0.666 代表模型对目标样本已经有初步的识别度
AUC=0.745 代表模型不仅有识别度,对目标样本还有较大的识别力度
 用人话来说,0.66代表模型还弱,还需要继续优化,0.75代表模型基本已经有不错的商用价值了





  编后语  


以上都为实验数据,细节仅为参考,但本实验结论与实际项目中经验结论基本是一致的







 End 





联系老饼