第三课:决策树
决策树
【导读】决策树-入门须知
作者 : 老饼 日期 : 2022-06-26 03:37:26 更新 : 2022-09-27 17:11:28
本站原创文章,转载请说明来自《老饼讲解-机器学习》ml.bbbdata.com


决策树的内容比较混杂,一条好的学习路线能起到事半功倍的作用。

本文不涉及决策树模型原理,主要给大家简单对决策树进行摸底,

同时梳理学习路线和学习重心,为后面的学习作铺垫。




   01. 决策树简介   


决策树主要有两支线:



(1) CART: classification and regression tree,分类与回归树
即CART自身包括了分类树与回归树
(2) ID3系列: ID3算法,C4.5算法,C5.0算法                         


详情如下:



  
ID3系列起源更早,但目前使用更多、更好用的是CART树。
ID3在实际中很少使用,大部分软件包也不支持。

日常人们所说的决策树,通常是指CART决策树,甚至是指CART决策树中的分类树。




   02. 决策树的学习路线   


  学习路线的重要性  


由于决策树包含了两条路线,
且每条路线有各自的发展,导致决策树的知识非常混乱。

学习路线非常重要,
错误的学习路线,会将决策树众多概念混淆在一起。
一条明晰的路线,可以由简到繁,起到学习的事倍功倍。



   学习路线建议   


决策树的学习路线建议如下:
1.先学习CART决策树分类树
2.再学习CART决策树回归树
3.先学习ID3                       
4.再学习C4.5。                  
最后,将各个决策树进行比较,辨识共同之处与差异之处。




   03. 决策树的学习重心与学习要求   



   学习重心   


1.CART分类树 :重点,紧紧掌握
2.CART回归树 :其次,一般掌握
3.先学习ID3:了解                     
4.再学习C4.5:了解                   


   学习要求   


目前实际中用得最多的是CART的分类树,
CART决策树必须掌握
其次回归树
 一般不用决策树做回归,但后面有算法依赖回归树,所以也必须学习

ID3和C4.5系列只要求了解,
现在大部分(目前我知道的)软件包不支持ID3和C4.5,
也就是说,要使用ID3,必须自己编写程序细节,
笔者认为,可以不完全掌握,
但思路、概念还是需要了解
另一方面,为什么软件包不实现它,这个值得深思。




   04. 笔者的偏见   


这里笔者的两个偏见,仅作为一种声音,不作绝对参考


  ID3的不重要性  


说ID3不重要,是相对CART而言的,
学习的时候,
要注意不要被ID3系列的概念影响到CART的学习,
ID3很多概念已经被渐渐抛弃了,
 但很多网文中,并没有指出实际应用中ID3的非重要性,
以致于整个决策树概念非常冗重,初学者必须引起重视。

一句话,不要过于执着ID3



   学习禁忌-先学ID3   


ID3看着简单,
其实没有CART好学,
往往没学会,就透支了所有激情,
所以笔者不建议先学ID3
这里的ID3是指ID3支线的决策树算法,包括CART4.5
为什么说ID3不好学?

(1) ID3算法的缺陷

ID3有比较明显的缺陷
一个缺陷越多的东西
对于逻辑紧密的同学,越难理解。

(2) 引入了熵
ID3中引入了熵的概念,
熵本来就是一个不好理解的东西,
这就是一道门槛和疑问了。

(3) 所学非日常所用
ID3并非日常所用的决策树,
这又很容易在学习时产生信息验证偏差,
例如,
ID3只支持枚举变量,
而我们用的决策树(CART)支持连续变量,
那就很容易产生误解,以为ID3也能支持连续变量,
然后不断思考ID3是怎么支持连续变量。

(4) 软件不支持
软件并没有实现ID3,
也就是在实现标准上没有较好的统一,
看野包实现的流程,那是五花八门,众说纷芸的。




   05. 本站对各种决策树的称呼   


特别声明:
本站文章将根据日常实际称呼习惯,
按以下对应各种决策树命名,
而不再遵循学术名称:

本文以下如无特别说明,都默认所说的决策树是指CART分类树。


好了,闲话到此,开启决策树之路吧!






 End 








联系小饼