【参数】sklearn决策树参数详解

作者 : 老饼发表日期 : 2022-06-26 09:49:25 更新日期 : 2023-12-11 15:26:04

本站原创文章，转载请说明来自《老饼讲解-机器学习》www.bbbdata.com

本文讲述sklearn决策树DecisionTreeClassifier的参数说明，

包括入参说明，模型方法说明和一些实际应用等，作为使用sklearn决策树时的参考资料

01. 一个sklearn决策树的简单Demo

本节先展示一个sklearn调用DecisionTreeClassifier构建决策树的简单Demo

一个sklearn决策树的简单Demo

在sklearn中，可以使用DecisionTreeClassifier来构建一个决策树模型
下面是一个简单的Demo示例：

from sklearn.datasets import load_iris
from sklearn import tree
#----------------数据准备----------------------------
iris = load_iris()                          # 加载数据
#---------------模型训练----------------------------------
clf = tree.DecisionTreeClassifier(criterion="gini",
                 splitter="best",
                 max_depth=None,
                 min_samples_split=2,
                 min_samples_leaf=1,
                 min_weight_fraction_leaf=0.,
                 max_features=None,
                 random_state=None,
                 max_leaf_nodes=None,
                 min_impurity_decrease=0.,
                 min_impurity_split=None,
                 class_weight=None,
                 presort='deprecated',
                 ccp_alpha=0.0) # sk-learn的决策树模型
clf = clf.fit(iris.data, iris.target)       # 用数据训练树模型构建()
r = tree.export_text(clf, feature_names=iris['feature_names']) #训练好的决策树
#---------------模型预测结果------------------------
text_x = iris.data[[0,1,50,51,100,101], :]
pred_target_prob = clf.predict_proba(text_x)   # 预测类别概率
pred_target = clf.predict(text_x)              # 预测类别

02. sklearn决策树DecisionTreeClassifier的入参说明

本节讲解sklearn决策树DecisionTreeClassifier的入参说明，并进行分类讲述相关使用场景

sklearn决策树的入参说明

sklearn决策树API函数DecisionTreeClassifier的完整入参Demo如下

clf = tree.DecisionTreeClassifier(criterion="gini",
                 splitter="best",
                 max_depth=None,
                 min_samples_split=2,
                 min_samples_leaf=1,
                 min_weight_fraction_leaf=0.,
                 max_features=None,
                 random_state=None,
                 max_leaf_nodes=None,
                 min_impurity_decrease=0.,
                 min_impurity_split=None,
                 class_weight=None,
                 presort='deprecated',
                 ccp_alpha=0.0) # sk-learn的决策树模型

其中，DecisionTreeClassifier的各个入参的详细说明如下：

参数名称	参数输入要求	变量说明	详细说明
criterion	gini(默认)，entropy	节点质量评估函数	gini为基尼系数，entropy为熵
splitter	best(默认)，random	分枝时变量选择方式	random:随机选择，best:选择最好的变量
max_depth	整数，None(默认)	树分枝的最大深度	为None时，树分枝深度无限制
min_samples_split	整数或小数，默认2	节点分枝最小样本个数	节点样本>=min_samples_split时，允许分枝，如果小于该值，则不再分枝（也可以设为小数，此时当作总样本占比，即min_samples_split=ceil(min_samples_split *总样本数)
min_samples_leaf	整数或小数，默认1	叶子节点最小样本数	左右节点都需要满足>=min_samples_leaf,才会将父节点分枝，如果小于该值，则不再分枝（也可以设为小数，此时当作总样本占比，即min_samples_split=ceil(min_samples_split *总样本数)）
min_weight_fraction_leaf	小数，默认值0	叶子节点最小权重和	节点作为叶子节点，样本权重总和必须>=min_weight_fraction_leaf,为0时即无限制。
max_features	整数，小数，None(默认)， {"auto", "sqrt", "log2"}	特征最大查找个数	先对max_features进行如下转换，统一转换成成整数。整数：max_features=max_features auto：max_features=sqrt(n_features) sqrt：max_features=sqrt(n_features) log2：max_features=log2rt(n_features) 小数：max_features=int(max_features * n_features) None:max_features=n_features 如果max_features<特征个数，则会随机抽取max_features个特征，只在这max_features中查找特征进行分裂。
random_state	整数，随机数实例，None(默认)	训练过程中的随机种子。	如果设定为非None值，则每次训练都会是一样的结果。
max_leaf_nodes	整数，None(默认)	最大叶子节点数。	如果为None,则无限制。
min_impurity_decrease	小数，默认0.	节点分枝最小纯度增长量	信息增益
min_impurity_split	-	-	已弃用
class_weight	字典（多输出为字典列表），balanced，None（默认）	各类别样本的权重	None:样本权重全为1 字典:{0:1,1:2}代表0类的样本权重为1，1类的样本权重为2.（多输出时，格式为:[{0:1,1:2},{0:1,1:2}]） balanced:把总权重n_samples均分给各类，各类再均分给各个样本。例：有3个类别，10个样本，则每个类别平均权重为10/3,平均到某个类别的权重就为 (10/3)/类别样本数。公式：class_weight = n_samples / (n_classes * np.bincount(y))。
presort	-	-	已弃用
ccp_alpha	非负小数，默认0	剪枝时的alpha系数	默认0时即不剪枝

✍️备注：关于回归树的参数
回归树DecisionTreeRegressor的入参与分类树基本相同，不同之处在于：
1. criterion可选值：mse:默认修士，均方差，mae：平均绝对差，friedman_mse
2. 没有class_weight

sklearn决策树的重要入参分类讲解

在sklearn中决策树的入参相对较多，下面我们根据它们的特点分类进行讲解
   常用参数
class_weight  ：设置各类别样本的权重，默认是各个样本权重一样，都为 1.
ccp_alpha    ：剪枝时的alpha系数，需要剪枝时设置该参数，默认值是不会剪枝的。
random_state ：需要每次训练都一样时，就需要设置该参数。
criterion      ：节点质量评估函数（gini,entropy）（看似常用，实际不常用）

   预防过拟合参数
min_samples_leaf      ：叶子节点最小样本数。
min_samples_split      ：节点分枝最小样本个数
max_depth         ：树分枝的最大深度
min_weight_fraction_leaf ：叶子节点最小权重和
min_impurity_decrease  ：节点分枝最小纯度增长量
max_leaf_nodes       ：最大叶子节点数

  树的多样性参数
max_features：特征最大查找个数
splitter      ：分枝时变量选择方式
这部分参数常用于训练弱树

03. sklearn决策树训练及训练后的方法与属性

本节讲解sklearn决策树DecisionTreeClassifier训练方法及训练后的常用方法与属性

sklearn决策树的训练方法

sklearn决策树使用fit对模型进行训练：
clf.fit(X,y) ：模型训练

sklearn决策树-训练后的方法与属性

DecisionTreeClassifier在训练后有如下的方法与属性：
     预测与评估
clf.predict(X)                   ：预测X的类别
clf.predict_proba(X)        ：预测X属于各类的概率
clf.predict_log_proba(X) ：相当于 np.log(clf.predict_proba())
clf.apply(X)                      ：返回样本预测节点的索引
         clf.score(X,y)                   ：返回准确率，即模型预测值与y不同的个数占比
                                                            支持样本权重：clf.score(X,y,sample_weight=sample_weight)
clf.decision_path()          ：返回决策路径

剪枝
clf.cost_complexity_pruning_path(X, y) ：返回CCP法的剪枝路径
CCP的计算方法请参考文章：《决策树后剪枝：CCP剪枝法》

     决策树的相关信息
决策树的相关信息可以通过如下方法或属性获得：
     树信息
clf.get_depth()         ：返回树的深度
clf.get_n_leaves()     ：叶子节点个数
clf.tree_.node_count  ：总节点个数

   树明细数据
左节点编号  :  clf.tree_.children_left
右节点编号  :  clf.tree_.children_right
分割的变量  :  clf.tree_.feature
分割的阈值 :  clf.tree_.threshold
不纯度(gini) :  clf.tree_.impurity
样本个数   :  clf.tree_.n_node_samples
样本分布    :  clf.tree_.value
备注：详细解说请参考文章：《决策树训练后的模型数据》

其它
clf.feature_importances_ ：各个特征的权重
clf.get_params() ：查看模型的入参设置

一些特殊应用

✍️如何获取决策路径
通过clf.decision_path(np.array([0 ,1 ,2 ,1 ]).reshape(1, -1)).todense()
可以返回决策路径，格式形如[ 1 1 0 0 0] ，它代表通过了第0，第1个节点
✍️如何获取节点上的样本数据
如果想获取节点上样本的数据，sklearn不直接提供，
但可以借用 clf.apply(X) ，把原数据作为输入，间接获得

End