第三课:决策树
决策树
【附件】GINI系数的推导
作者 : 老饼 日期 : 2022-06-26 03:59:48 更新 : 2022-11-29 17:07:29
本站原创文章,转载请说明来自《老饼讲解-机器学习》ml.bbbdata.com


GINI系数是CART决策树用于评估树纯度的指标,

那GINI系数是怎么来的呢?它的具体含义是什么?

本文介绍CART决策树中GINI基尼系数的含义和推导过程




    GINI系数公式与推导    


GINI系数公式
集合中有K类,
抽到i类的概率为,
则两次抽到不同类别的概率
  
G称为GINI基尼系数
   GINI系数的推导过程   
 
第一次抽到Ci类,第二次没抽到 Ci类的概率为:
第一次抽到的可能现象是C1,C2....Ck
则两次抽到不一样的概率:

 





    决策树中的GINI系数    


假设节点上有个样本,属于 ​ 类的样本有
那么抽到类样本的概率为
套进基尼系数的公式,
则易知该节点上的基尼系数表达为



 其中
  :该节点上的样本数            
   :该节点上属于 ​ 类的个数
它代表在节点上,随机抽两个样本,这两个样本属于不同类的概率






 End 








联系老饼