老饼讲解-机器学习 机器学习 神经网络 深度学习
逻辑回归与决策树

【推导】GINI系数的含义与推导

作者 : 老饼 发表日期 : 2022-06-26 13:56:10 更新日期 : 2023-11-10 22:20:07
本站原创文章,转载请说明来自《老饼讲解-机器学习》www.bbbdata.com


GINI系数是CART决策树用于评估树纯度的指标,

那GINI系数是怎么来的呢?它的具体含义是什么?

本文介绍CART决策树中GINI基尼系数的含义和推导过程



   01. 基尼系数含义  



本节讲解GINI系数的含义



  GINI系数的含义  


集合中有K类,抽到i类的概率为Pi,
则两次抽到不同类别的概率
   
 G称为GINI基尼系数




   GINI系数的推导过程   


第一次抽到Ci,第二次没抽到 Ci 的概率为:
第一次抽到的可能现象是C1,C2....Ck
则两次抽到不一样的概率如下:
  
上述就是我们所需要的GINI系数




  02. 样本抽取场景下的GINI系数  



本节讲解GINI系数在样本抽取场景下的形式



    样本抽取场景下的GINI系数    


如果是在样本抽取场景,则GINI系数中的P可以有更具体的表达
假设有N个样本,
属于Ci类的有Ni个则抽到Ci类的概率为  ,

则基尼系数为:





   03. 决策树中的GINI系数   


本节讲解决GINI系数应用到决策树时的形式



   决策树中的GINI系数   


GINI系数应用到决策树中,实际就是样本抽取场景的一个特殊场景
基于样本抽取的场景,
我们易知,在决策树中,节点上的基尼系数表达为

 :该节点上的样本数  
 :该节点上属于 ​ 类的个数
它代表在节点上,随机抽两个样本,这两个样本属于不同类的概率。









 End 






联系老饼