决策树剪枝算法的python实现方法详解_python决策树后剪枝,python决策树剪枝算法资源-CSDN文库

5星 · 超过95%的资源 161 浏览量 2020-09-18 15:36:33 上传评论 4 收藏 135KB PDF 举报

决策树剪枝算法是机器学习中用于优化决策树模型的一种技术，目的是防止过拟合，提高模型泛化能力。在Python中实现决策树剪枝，通常会涉及到几个关键概念和算法，包括ID3、C4.5、CART等。 ID3算法是决策树构建的基础之一，它基于信息增益来选择最优属性进行节点划分。信息增益是衡量一个属性能带来多少信息减少，即减少了不确定性。ID3算法选择信息增益最高的属性作为分割依据，但容易偏向于选择取值较多的属性，因此存在过拟合风险。 C4.5是ID3的改进版本，通过信息增益率来解决ID3的偏向问题，信息增益率考虑了属性值的数量，使得选择更公平。C4.5还能处理连续型数据，通过设置阈值进行切分。 CART（Classification and Regression Trees）算法则用于构建分类和回归决策树，它使用基尼指数（Gini Index）作为划分标准。基尼指数衡量的是数据集的纯度，数值越小，纯度越高。对于分类任务，CART会选择划分后子集基尼指数之和最小的属性作为划分依据。在Python中实现决策树剪枝，通常可以使用scikit-learn库，它提供了`DecisionTreeClassifier`和`DecisionTreeRegressor`类，支持预剪枝和后剪枝。预剪枝是在树生长过程中设定停止条件，如最大深度、最小样本数等，避免树过度复杂。后剪枝则是在树完全生长后，从叶子节点开始逐步回溯，通过比较剪枝前后的泛化误差来决定是否保留子树。具体实现上，可以编写函数来计算熵、基尼指数，以及进行数据集的划分。例如，`calcShannonEnt`函数用于计算数据集的香农熵，`splitDataSet`函数用于根据特定特征值划分数据集。在训练决策树时，可以通过递归方式不断选择最佳分割属性，直到满足剪枝条件为止。总结来说，决策树剪枝算法的Python实现主要包括以下几个步骤： 1. 定义计算熵和基尼指数的函数。 2. 实现数据集的划分功能，针对离散和连续特征。 3. 使用递归或循环构建决策树，每次选择最优分割属性。 4. 应用剪枝策略，如预剪枝或后剪枝，通过比较不同树结构的性能来确定最终模型。在实际应用中，可以结合交叉验证、网格搜索等技术调整决策树的参数，找到最佳的剪枝策略和模型复杂度，以获得更好的泛化性能。

资源推荐

资源详情

资源评论

决策树剪枝算法的决策树剪枝算法的python实现方法详解实现方法详解

主要介绍了决策树剪枝算法的python实现方法,结合实例形式较为详细的分析了决策树剪枝算法的概念、原理并

结合实例形式分析了Python相关实现技巧,需要的朋友可以参考下

本文实例讲述了决策树剪枝算法的python实现方法。分享给大家供大家参考，具体如下：

决策树决策树是一种依托决策而建立起来的一种树。在机器学习中，决策树是一种预测模型，代表的是一种对象属性与对象值之间的

一种映射关系，每一个节点代表某个对象，树中的每一个分叉路径代表某个可能的属性值，而每一个叶子节点则对应从根节点

到该叶子节点所经历的路径所表示的对象的值。决策树仅有单一输出，如果有多个输出，可以分别建立独立的决策树以处理不

同的输出。

ID3算法算法:ID3算法是决策树的一种，是基于奥卡姆剃刀原理的，即用尽量用较少的东西做更多的事。ID3算法，即Iterative

Dichotomiser 3，迭代二叉树3代，是Ross Quinlan发明的一种决策树算法，这个算法的基础就是上面提到的奥卡姆剃刀原

理，越是小型的决策树越优于大的决策树，尽管如此，也不总是生成最小的树型结构，而是一个启发式算法。在信息论中，期

望信息越小，那么信息增益就越大，从而纯度就越高。ID3算法的核心思想就是以信息增益来度量属性的选择，选择分裂后信

息增益最大的属性进行分裂。该算法采用自顶向下的贪婪搜索遍历可能的决策空间。

信息熵，将其定义为离散随机事件出现的概率，一个系统越是有序，信息熵就越低，反之一个系统越是混乱，它的信息熵就越

高。所以信息熵可以被认为是系统有序化程度的一个度量。

基尼指数：在CART里面划分决策树的条件是采用Gini Index，定义如下：gini(T)=1−sumnj=1p2j。其中，( p_j )是类j在T中的

相对频率，当类在T中是倾斜的时，gini(T)会最小。将T划分为T1（实例数为N1）和T2（实例数为N2）两个子集后，划分数据

的Gini定义如下：ginisplit(T)=fracN1Ngini(T1)+fracN2Ngini(T2)，然后选择其中最小的(gini_{split}(T) )作为结点划分决策树

具体实现具体实现

首先用函数calcShanno计算数据集的香农熵，给所有可能的分类创建字典

def calcShannonEnt(dataSet):

numEntries = len(dataSet)

labelCounts = {}

# 给所有可能分类创建字典

for featVec in dataSet:

currentLabel = featVec[-1]

if currentLabel not in labelCounts.keys():

labelCounts[currentLabel] = 0

labelCounts[currentLabel] += 1

shannonEnt = 0.0

# 以2为底数计算香农熵

for key in labelCounts:

prob = float(labelCounts[key]) / numEntries

shannonEnt -= prob * log(prob, 2)

return shannonEnt

# 对离散变量划分数据集，取出该特征取值为value的所有样本

def splitDataSet(dataSet, axis, value):

retDataSet = []

for featVec in dataSet:

if featVec[axis] == value:

reducedFeatVec = featVec[:axis]

reducedFeatVec.extend(featVec[axis + 1:])

retDataSet.append(reducedFeatVec)

return retDataSet

对连续变量划分数据集，direction规定划分的方向，决定是划分出小于value的数据样本还是大于value的数据样本集

numFeatures = len(dataSet[0]) - 1

baseEntropy = calcShannonEnt(dataSet)

bestInfoGain = 0.0

bestFeature = -1

bestSplitDict = {}

for i in range(numFeatures):

featList = [example[i] for example in dataSet]

# 对连续型特征进行处理

if type(featList[0]).__name__ == 'float' or type(featList[0]).__name__ == 'int':

# 产生n-1个候选划分点

sortfeatList = sorted(featList)

splitList = []

for j in range(len(sortfeatList) - 1):

splitList.append((sortfeatList[j] + sortfeatList[j + 1]) / 2.0)

bestSplitEntropy = 10000

slen = len(splitList)

# 求用第j个候选划分点划分时，得到的信息熵，并记录最佳划分点

for j in range(slen):

value = splitList[j]

newEntropy = 0.0

subDataSet0 = splitContinuousDataSet(dataSet, i, value, 0)

subDataSet1 = splitContinuousDataSet(dataSet, i, value, 1)

prob0 = len(subDataSet0) / float(len(dataSet))

newEntropy += prob0 * calcShannonEnt(subDataSet0)

prob1 = len(subDataSet1) / float(len(dataSet))

newEntropy += prob1 * calcShannonEnt(subDataSet1)

if newEntropy < bestSplitEntropy:

bestSplitEntropy = newEntropy

bestSplit = j

# 用字典记录当前特征的最佳划分点

bestSplitDict[labels[i]] = splitList[bestSplit]

infoGain = baseEntropy - bestSplitEntropy

# 对离散型特征进行处理

else:

uniqueVals = set(featList)

newEntropy = 0.0

# 计算该特征下每种划分的信息熵

for value in uniqueVals:

subDataSet = splitDataSet(dataSet, i, value)

prob = len(subDataSet) / float(len(dataSet))

newEntropy += prob * calcShannonEnt(subDataSet)

infoGain = baseEntropy - newEntropy

if infoGain > bestInfoGain:

bestInfoGain = infoGain

bestFeature = i

# 若当前节点的最佳划分特征为连续特征，则将其以之前记录的划分点为界进行二值化处理

# 即是否小于等于bestSplitValue

if type(dataSet[0][bestFeature]).__name__ == 'float' or type(dataSet[0][bestFeature]).__name__ == 'int':

bestSplitValue = bestSplitDict[labels[bestFeature]]

labels[bestFeature] = labels[bestFeature] + '<=' + str(bestSplitValue)

for i in range(shape(dataSet)[0]):

if dataSet[i][bestFeature] <= bestSplitValue:

dataSet[i][bestFeature] = 1

else:

dataSet[i][bestFeature] = 0

return bestFeature

def chooseBestFeatureToSplit(dataSet, labels):

numFeatures = len(dataSet[0]) - 1

baseEntropy = calcShannonEnt(dataSet)

bestInfoGain = 0.0

bestFeature = -1

bestSplitDict = {}

for i in range(numFeatures):

featList = [example[i] for example in dataSet]

# 对连续型特征进行处理

if type(featList[0]).__name__ == 'float' or type(featList[0]).__name__ == 'int':

# 产生n-1个候选划分点

sortfeatList = sorted(featList)

splitList = []

for j in range(len(sortfeatList) - 1):

splitList.append((sortfeatList[j] + sortfeatList[j + 1]) / 2.0)

bestSplitEntropy = 10000

slen = len(splitList)

# 求用第j个候选划分点划分时，得到的信息熵，并记录最佳划分点

for j in range(slen):

value = splitList[j]

newEntropy = 0.0

subDataSet0 = splitContinuousDataSet(dataSet, i, value, 0)

subDataSet1 = splitContinuousDataSet(dataSet, i, value, 1)

prob0 = len(subDataSet0) / float(len(dataSet))

newEntropy += prob0 * calcShannonEnt(subDataSet0)

prob1 = len(subDataSet1) / float(len(dataSet))

newEntropy += prob1 * calcShannonEnt(subDataSet1)

if newEntropy < bestSplitEntropy:

bestSplitEntropy = newEntropy

bestSplit = j

# 用字典记录当前特征的最佳划分点

bestSplitDict[labels[i]] = splitList[bestSplit]

infoGain = baseEntropy - bestSplitEntropy

# 对离散型特征进行处理

else:

uniqueVals = set(featList)

newEntropy = 0.0

# 计算该特征下每种划分的信息熵

for value in uniqueVals:

subDataSet = splitDataSet(dataSet, i, value)

prob = len(subDataSet) / float(len(dataSet))

newEntropy += prob * calcShannonEnt(subDataSet)

infoGain = baseEntropy - newEntropy

if infoGain > bestInfoGain:

剩余6页未读，继续阅读

评论收藏

内容反馈

zh222333

2023-07-25

这篇文章解决了我对决策树剪枝算法的疑惑，是一篇值得推荐的优秀文件。
杏花朵朵

2023-07-25

这篇文件详细介绍了决策树剪枝算法的python实现方法，让人受益匪浅。
柏傅美

2023-07-25

作者对算法原理进行了深入讲解，实例代码清晰易懂，能够帮助读者快速上手。
XiZi

2023-07-25

文章不仅介绍了算法的基本思想，还给出了具体的实现步骤，方便读者实际应用。
优游的鱼

2023-07-25

文章简洁明了，语言质朴，容易理解，适合初学者阅读。

weixin_38608189

粉丝: 4
资源: 922

决策树剪枝算法的python实现方法详解

西瓜书《机器学习》---第四章 决策树python代码实现

解读python如何实现决策树算法

使用Python实现决策树

python决策树代码

用机器学习算法对UCI上的三个数据集做预测

后剪枝决策树分类器python

决策树学习及其剪枝算法

随机森林+预剪枝+后剪枝

Matlab编写的决策树及剪枝算法实现（数据集为Sogou_webpage）

决策树的python实现方法

决策树算法python实现

python 决策树算法的实现

决策树算法python代码实现

用python实现决策树算法

机器学习中决策树算法及其Python实现详解

决策树算法PPT详解及其代码 覃秉丰.rar

机器学习中的决策树与随机森林算法详解及Python实现

决策树资料合集.rar_决策树_决策树 word_决策树 文档_源代码

Python实现决策树

基于python的决策树源代码

python实现决策树C4.5算法详解(在ID3基础上改进)

决策树后剪枝算法的研究

C4.5决策树算法的Python代码和数据样本

决策树剪枝matlab代码-CSForest:代价敏感决策森林算法CSForest的Weka实现

ID3-Decision-Tree:带有后剪枝的决策树实现的 ID3 算法

C4.5决策树代码

α-β剪枝算法编程实例 代码

最新资源

西瓜书《机器学习》---第四章决策树python代码实现

决策树算法PPT详解及其代码覃秉丰.rar

决策树资料合集.rar_决策树_决策树 word_决策树文档_源代码

α-β剪枝算法编程实例代码