第三课:决策树
决策树
【导读】决策树-入门学习须知
作者 : 老饼 日期 : 2022-06-26 03:37:26 更新 : 2022-12-03 09:47:48
本站原创文章,转载请说明来自《老饼讲解-机器学习》ml.bbbdata.com


决策树的内容比较混杂,一条好的学习路线能起到事半功倍的作用

本文不涉及决策树模型原理,主要给大家简单对决策树进行摸底,

同时梳理学习路线和学习重心,为后面的学习作铺垫




   01. 有哪些决策树   


    决策树的种类    


决策树主要有两支线:
  
(1) CART: classification and regression tree,分类与回归树
 即CART自身包括了分类树与回归树
  (2) ID3系列: ID3算法,C4.5算法,C5.0算法                         

  详情如下:
  
ID3系列起源更早,但目前使用更多、更好用的是CART树
ID3在实际中很少使用,大部分软件包也不支持        
✍️备注:日常人们所说的决策树,通常是指CART决策树,甚至是指CART决策树中的分类树




   02. 决策树的学习路线   


  学习路线  


学习路线的重要性
由于决策树包含了两条路线,
且每条路线有各自的发展,导致决策树的知识非常混乱
学习路线非常重要,
错误的学习路线,容易将决策树众多概念混淆在一起
一条明晰的路线,可以由简到繁,起到学习的事倍功倍
   学习路线建议   
 
决策树的学习路线建议如下:
 

简单来说,如下:
1.先学习CART决策树分类树
2.再学习CART决策树回归树
3.先学习ID3                       
4.再学习C4.5                     
最后,将各个决策树进行比较,辨识共同之处与差异之处




    决策树的学习重心与学习要求   


   学习重心   
 
决策树的学习重心如下
 

 
1.CART分类树 :重点,紧紧掌握
 2.CART回归树 :其次,一般掌握
 3.先学习ID3:了解                     
 4.再学习C4.5:了解                   
   学习要求   
 
目前实际中用得最多的是CART的分类树,
CART决策树必须掌握,其次是回归树
  一般不用决策树做回归,但后面有算法依赖回归树,所以也必须学习

ID3和C4.5系列只要求了解,
现在大部分(目前我知道的)软件包不支持ID3和C4.5,
也就是说,要使用ID3,必须自己编写程序细节,
笔者认为,可以不完全掌握,但思路、概念还是需要了解
  另一方面,为什么软件包不实现它,这个值得深思




     笔者的偏见    


声明:下面是笔者的两个偏见,仅作为一种声音,不作绝对参考
  
 
ID3的不重要性  
 
说ID3不重要,是相对CART而言的,
学习的时候,
要注意不要被ID3系列的概念影响到CART的学习 
因为ID3很多概念已经被渐渐抛弃了 
 
 但很多网文中,并没有指出实际应用中ID3的非重要性
以致于整个决策树概念非常冗重,初学者必须引起重视
 一句话,不要过于执着ID3

 
学习禁忌-先学ID3   
 
ID3看着简单,其实没有CART好学,
往往没学会,就透支了所有激情,
所以笔者不建议先学ID3
这里的ID3是指ID3支线的决策树算法,包括C4.5
✍️ 为什么说ID3不好学?

 (1) ID3算法的缺陷

 ID3有比较明显的缺陷,
一个缺陷越多的东西,对于逻辑紧密的同学,越难理解

 
 (2) 引入了熵
 ID3中引入了熵的概念,
熵本来就是一个不好理解的东西,这就是一道门槛和疑问了


 (3) 所学非日常所用
 ID3并非日常所用的决策树,
这又很容易在学习时产生信息验证偏差,
例如,ID3只支持枚举变量,
而我们用的决策树(CART)支持连续变量,
那就很容易产生误解,以为ID3也能支持连续变量,
然后不断思考ID3是怎么支持连续变量


 (4) 软件不支持
 软件并没有实现ID3,
也就是在实现标准上没有较好的统一,
看野包实现的流程,那是五花八门,众说纷芸的




    本站对各种决策树的称呼    


特别声明
本站文章将根据日常实际称呼习惯,
按以下对应各种决策树命名,而不再遵循学术名称

 
 
本文以下如无特别说明,都默认所说的决策树是指CART分类树




好了,闲话到此,开启决策树之路吧!






 End 








联系老饼