模式识别——基于ID3算法的三次改进

5星 · 超过95%的资源需积分: 11 53 浏览量 2016-07-09 07:56:42 上传评论 1 收藏 647KB PDF 举报

资源推荐

资源详情

资源评论

模式识别——基于 ID3 算法的三次改进

191132 詹才韬 2016 年 7 月 7 日

Abstract

ID3 算法是决策树的鼻祖，最早于 1986 年由 Quinlan

提出，全称是 Iterative Dichotomiser 3 [1]。在这篇课

程报告中，我将对经典的 ID3 做出三次改进：1.把

 改进为 ；2. 把简单投票的过

程改进为朴素贝叶斯的方法；3. 将许多颗 ID3 决策

树打造成随机森林。本人将在 Weka 平台进行二次开

发，并且用 Weka-Experiment 做大量实验，和其它著

名的算法进行比较，最后做出综述。项目的源代码开

源在本人的 GitHub 主页上。

Improvement One

经典 ID3 算法构造一棵树的过程如下：

1. 构造根节点：输入数据集 data，找出

最大的属性 attribute，用属性 attribute 对数据集

data 划分成若干子节点。子节点中的数据集 data’

是其父节点中数据集 data 的一个子集

2. 如果子节点的  等于 0，则子节点成为

叶节点，停止生长树

3. 如果子节点的不等于 0，则以该子节

点为”根节点”，继续长树，即回到步骤 1

这里可以改进的地方在于, 在 ID3 中，

  

󰇛



󰇜

 

󰇛



󰇜

[2]。其中，



󰇛



󰇜

为划分样本集 S 为 c 个类的熵，



󰇛



󰇜

为属性 A 划分样本集 S 导致的期望熵。

当 data 越“纯”，entropy 就越小，子节点的 entropy

之和就越小，这样就越大。我们希望

越大越好。

问题来了，现在输入一个数据集，有一个属性是这样

的：有很多的取值，甚至每一个实例的该属性上的值

都不一样。比如在 Weaher.nominal 数据集中增加一

个名为 IDcode 的属性，那么 ID3 算法构造的树如图-

1。为了解决这个问题，提出了如下改进[3]：

引入  







图-1：训练集=Weather.nominal.IDcode, 算法=ID3。算

法选择了 IDcode 这个属性对数据集进行划分。然而

这样是无法对新来的实例进行预测的，因为每一个

实例的 ID code 都不一样。

其中， 

󰇛

󰇟󰇠







 



󰇟󰇠



󰇜

这样一来，使用  来替代，可以

抵消部分某属性的取值过多的不利因素，如图-2

图-2：训练集=Weather.nominal, 算法=ID3_gain-ratio。

IDcode 的例子，其 IDcode 的  ,是第

大二 0.246 的接近 5 倍。它的  ,

只是第二大的 0.156 的 1.5 倍多一点。

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余2页未读，立即下载

评论收藏

内容反馈

squarefang

2018-04-30

学长厉害了。。。
CUGanswer

2017-11-27

很详细的报告，代码也有

sicolex

粉丝: 220
资源: 10

模式识别——基于ID3算法的三次改进

id3算法的改进和优化

模式识别id3算法

基于ID3算法决策树的研究与改进

决策树ID3算法实验_数据集car_databases

模式识别课程细胞数据集

哈工大模式识别（计算机学院）研究生课程PPT

ID3算法的一种改进算法.docx

论文《决策树ID3 算法的改进》

数据挖掘算法ID3的改进研究.pdf

基于粗糙集的ID3决策树算法改进.docx

C4.5算法对 ID3算法的改进.docx

java毕业设计——基于Misty1算法的加密软件(java)的实现(源代码+论文).zip

基于模式识别的图像处理算法研究————基于模式识别的车牌定位算法研究

基于模式识别的图像处理算法研究——基于模式识别的车牌定位算法研究ppt

模式识别——快速邻近算法程序

融合GINI指数的ID3改进算法

基于ID3决策树算法的实现(Python版)

基于粗集的ID3算法研究* (2006年)

基于粗糙集的决策树ID3算法

MATLAB——基于蚁群算法的三维路径规划算法

模式识别——K均值算法

新疆兵团棉花种植机械优化配置研究——基于改进遗传算法.pdf

模式识别 感知器算法

改进的灰色电力负荷预测研究——基于粒子群算法和BP神经网络.pdf

基于Python实现ID3算法【100011192】

基于C++实现的ID3算法.zip

基于Python实现ID3算法.zip

与ID3相比，C4.5决策树算法的改进

最新资源

模式识别感知器算法