2009 年 4 月
第 32 卷 增刊
北 京 邮 电 大 学 学 报
Journal of Beijing University of Posts and Telecommunications
Apr .2009
Vol .32 Sup .
文章编号 :1007‐5321(2009)增‐0049‐04
数 据 挖 掘 网 格 中 决 策 树 并 行 算 法 设 计 及 性 能 分 析
陈 平
1
, 乔秀全
2
, 刘 臻
1
, 田小萍
1
(1畅 北京师范大学 信息网络中心 ,北京 100875 ;2畅 北京邮电大学 网络与交换技术国家重点实验室 ,北京 100876)
摘要 :提出了 C4 .5 决策树算法的一种并行算法 ,使传统的串行分类算法能在多台 PC 机和服务器组成的数据挖掘
网格上并行数据挖掘 .采用数据纵横剖分 ,结合递归过程的并行化 ,实现了可扩展的高性能并行计算 ,解决了处理
海量数据时没有较好并行分类算法的问题 .并给出了指导该并行算法高效计算的方法 .数据运行试验和算法分析
表明 ,该并行算法的性能受多个因素影响 ,并具有高效的并行效率计算加速比 .
关 键 词 :数据挖掘 ;网格计算 ;决策树 ;并行性能
中图分类号 :TP302 .7 文献标识码 :A
Design and Performance Analysis of a Parallel Decision
Tree Algorithm on Data Mining Grid
CHEN Ping
1
, QIAO Xiu‐
q
uan
2
, LIU Zhen
1
, TIAN Xiao‐
p
ing
1
(1畅 Center of Information and Network Technology ,Beijing Normal University ,Beijing 100875 ,China ;
2畅 State Key Laboratory of Networking and Switching T echnology ,
Beijing University of Posts and Telecommunications ,Beijing 100876 ,China)
Abstract :Working on the group of personal‐computers and servers ,a parallel C4 .5 decision tree
algorithm is proposed .This algorithm made the parallel date mining run on the data mining grid
efficiently .A partition of vertical and horizontal method is introduced to parallel the procedure of
recursive algorithm .The algorithm is scalable and solves the situation of lack of efficient parallel
algorithm so far .The analysis and experiment for the parallel decision tree prove that the compu‐
ting efficiency is affected by several parameters and the algorithm has high performance and high
computing speedup .Guides to enhance the efficiency are proposed as well .
Key words :data mining ;
g
rid computing ;decision tree ;
p
arallel performance
收稿日期 :2009‐01‐24
基金项目 :国家自然科学基金项目 (60802034 ;60672122) ;高等学校博士学科点专项科研基金项目(20070013026) ;北京市科技新星计划
(2008B50)
作者简介 :陈 平 (1974 — ) ,男 ,博士 ,工程师 ,E‐mail :chenping@ bnu .edu .cn ;乔秀全(1978 — ) ,男 ,博士 ,副教授 ;刘臻 (1972 — ) ,
男 ,博士 ,副教授 ,硕士生导师 .
0 引言
数据挖掘算法包含经典的分类 、聚类 、关联分
析 、神经网络等算法 ,还有新型的基于图的复杂系统
分析算法 ,其中决策树算法是一种广泛采用的预测
算法 .复杂并行计算一直是数据挖掘网格计算研究
中有待解决的问题
[1]
,海量数据的处理和挖掘使存
储和计算面临巨大的挑战 .如果增加新的中小型机
器 ,其代价巨大 ,且没有充分利用现有的服务器和
PC 等设备 .而数据挖掘网格
[1]
能充分利用已有计
算设备架设成数据挖掘网格 ,具有规模动态扩展能
力 ,很好地解决了海量数据挖掘的计算密集需求难