数据挖掘网格中决策树并行算法设计及性能分析(2009年)资源-CSDN文库

自然科学

论文

需积分: 8 48 浏览量 2021-05-09 14:18:10 上传评论收藏 510KB PDF 举报

资源推荐

资源详情

资源评论

２００９年４月

第３２卷增刊

北京邮电大学学报

ＪｏｕｒｎａｌｏｆＢｅｉｊｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＰｏｓｔｓａｎｄＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ

Ａｐｒ．２００９

Ｖｏｌ．３２Ｓｕｐ．

文章编号：１００７‐５３２１（２００９）增‐００４９‐０４

数据挖掘网格中决策树并行算法设计及性能分析

陈　平

１

，　乔秀全

２

，　刘　臻

１

，　田小萍

１

（１畅北京师范大学信息网络中心，北京１００８７５；２畅北京邮电大学网络与交换技术国家重点实验室，北京１００８７６）

摘要：提出了Ｃ４．５决策树算法的一种并行算法，使传统的串行分类算法能在多台ＰＣ机和服务器组成的数据挖掘

网格上并行数据挖掘．采用数据纵横剖分，结合递归过程的并行化，实现了可扩展的高性能并行计算，解决了处理

海量数据时没有较好并行分类算法的问题．并给出了指导该并行算法高效计算的方法．数据运行试验和算法分析

表明，该并行算法的性能受多个因素影响，并具有高效的并行效率计算加速比．

关　键　词：数据挖掘；网格计算；决策树；并行性能

中图分类号：ＴＰ３０２．７　　　　文献标识码：Ａ

ＤｅｓｉｇｎａｎｄＰｅｒｆｏｒｍａｎｃｅＡｎａｌｙｓｉｓｏｆａＰａｒａｌｌｅｌＤｅｃｉｓｉｏｎ

ＴｒｅｅＡｌｇｏｒｉｔｈｍｏｎＤａｔａＭｉｎｉｎｇＧｒｉｄ

ＣＨＥＮＰｉｎｇ

１

，　ＱＩＡＯＸｉｕ‐

ｑ

ｕａｎ

２

，　ＬＩＵＺｈｅｎ

１

，　ＴＩＡＮＸｉａｏ‐

ｐ

ｉｎｇ

１

（１畅ＣｅｎｔｅｒｏｆＩｎｆｏｒｍａｔｉｏｎａｎｄＮｅｔｗｏｒｋＴｅｃｈｎｏｌｏｇｙ，ＢｅｉｊｉｎｇＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，Ｂｅｉｊｉｎｇ１００８７５，Ｃｈｉｎａ；

２畅ＳｔａｔｅＫｅｙＬａｂｏｒａｔｏｒｙｏｆＮｅｔｗｏｒｋｉｎｇａｎｄＳｗｉｔｃｈｉｎｇＴｅｃｈｎｏｌｏｇｙ，

ＢｅｉｊｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＰｏｓｔｓａｎｄＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ，Ｂｅｉｊｉｎｇ１００８７６，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｗｏｒｋｉｎｇｏｎｔｈｅｇｒｏｕｐｏｆｐｅｒｓｏｎａｌ‐ｃｏｍｐｕｔｅｒｓａｎｄｓｅｒｖｅｒｓ，ａｐａｒａｌｌｅｌＣ４．５ｄｅｃｉｓｉｏｎｔｒｅｅ

ａｌｇｏｒｉｔｈｍｉｓｐｒｏｐｏｓｅｄ．Ｔｈｉｓａｌｇｏｒｉｔｈｍｍａｄｅｔｈｅｐａｒａｌｌｅｌｄａｔｅｍｉｎｉｎｇｒｕｎｏｎｔｈｅｄａｔａｍｉｎｉｎｇｇｒｉｄ

ｅｆｆｉｃｉｅｎｔｌｙ．Ａｐａｒｔｉｔｉｏｎｏｆｖｅｒｔｉｃａｌａｎｄｈｏｒｉｚｏｎｔａｌｍｅｔｈｏｄｉｓｉｎｔｒｏｄｕｃｅｄｔｏｐａｒａｌｌｅｌｔｈｅｐｒｏｃｅｄｕｒｅｏｆ

ｒｅｃｕｒｓｉｖｅａｌｇｏｒｉｔｈｍ．Ｔｈｅａｌｇｏｒｉｔｈｍｉｓｓｃａｌａｂｌｅａｎｄｓｏｌｖｅｓｔｈｅｓｉｔｕａｔｉｏｎｏｆｌａｃｋｏｆｅｆｆｉｃｉｅｎｔｐａｒａｌｌｅｌ

ａｌｇｏｒｉｔｈｍｓｏｆａｒ．Ｔｈｅａｎａｌｙｓｉｓａｎｄｅｘｐｅｒｉｍｅｎｔｆｏｒｔｈｅｐａｒａｌｌｅｌｄｅｃｉｓｉｏｎｔｒｅｅｐｒｏｖｅｔｈａｔｔｈｅｃｏｍｐｕ‐

ｔｉｎｇｅｆｆｉｃｉｅｎｃｙｉｓａｆｆｅｃｔｅｄｂｙｓｅｖｅｒａｌｐａｒａｍｅｔｅｒｓａｎｄｔｈｅａｌｇｏｒｉｔｈｍｈａｓｈｉｇｈｐｅｒｆｏｒｍａｎｃｅａｎｄｈｉｇｈ

ｃｏｍｐｕｔｉｎｇｓｐｅｅｄｕｐ．Ｇｕｉｄｅｓｔｏｅｎｈａｎｃｅｔｈｅｅｆｆｉｃｉｅｎｃｙａｒｅｐｒｏｐｏｓｅｄａｓｗｅｌｌ．

Ｋｅｙｗｏｒｄｓ：ｄａｔａｍｉｎｉｎｇ；

ｇ

ｒｉｄｃｏｍｐｕｔｉｎｇ；ｄｅｃｉｓｉｏｎｔｒｅｅ；

ｐ

ａｒａｌｌｅｌｐｅｒｆｏｒｍａｎｃｅ

收稿日期：２００９‐０１‐２４

基金项目：国家自然科学基金项目（６０８０２０３４；６０６７２１２２）；高等学校博士学科点专项科研基金项目（２００７００１３０２６）；北京市科技新星计划

（２００８Ｂ５０）

作者简介：陈　平（１９７４ — ），男，博士，工程师，Ｅ‐ｍａｉｌ：ｃｈｅｎｐｉｎｇ＠ｂｎｕ．ｅｄｕ．ｃｎ；乔秀全（１９７８ — ），男，博士，副教授；刘臻（１９７２ — ），

男，博士，副教授，硕士生导师．

０　引言

数据挖掘算法包含经典的分类、聚类、关联分

析、神经网络等算法，还有新型的基于图的复杂系统

分析算法，其中决策树算法是一种广泛采用的预测

算法．复杂并行计算一直是数据挖掘网格计算研究

中有待解决的问题

［１］

，海量数据的处理和挖掘使存

储和计算面临巨大的挑战．如果增加新的中小型机

器，其代价巨大，且没有充分利用现有的服务器和

ＰＣ等设备．而数据挖掘网格

［１］

能充分利用已有计

算设备架设成数据挖掘网格，具有规模动态扩展能

力，很好地解决了海量数据挖掘的计算密集需求难

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余3页未读，立即下载

评论收藏

内容反馈

weixin_38582719

粉丝: 11
资源: 952

数据挖掘网格中决策树并行算法设计及性能分析 (2009年)

最新资源

数据挖掘网格中决策树并行算法设计及性能分析 (2009年)

数据挖掘网格中决策树并行算法设计及性能分析

并行算法的设计与分析, 陈国良, 3ed, 2009

并行算法的设计与分析,.陈国良,.3ed,.2009.djvu

基于iris数据集进行四种机器学习算法（决策树、朴素贝叶斯、随机森林、支持向量机SVM）的训练.zip

大数据挖掘技术分享 超大规模数据挖掘架构及方法论 共26页.pdf

SparkML算法详解(关于DataFrame的API操作)--数据挖掘(Scala与Java版)

决策树随堂笔记.pdf

云计算下的基于SOA架构的数据挖掘的研究.pdf

关于云计算的Web数据挖掘方法.pdf

决策树和随机森林实战Python代码.rar

Data-Mining:数据挖掘算法的实现

包含一些比较常见的数据挖掘竞赛或者项目的源码.zip

模型树_模型树_

蛋白质组大数据挖掘.pptx

云数据平台算法模型优化方案.pdf

时序数据挖掘与预测分析.pptx

Python数据分析与机器学习-Xgboost集成算法

机器学习数据挖掘案例和竞赛代码.zip

KDD源码.zip

算法与数据结构设计课件-NetworkSorting.pdf

随机森林是一种集成学习方法，它通过构建多个决策树并组合它们的输出来改进预测性能 在Python中，你可以使用scikit.rar

航空公司客户价值大数据分析源代码含数据python版

AutoX是一个高效的automl工具，主要针对表格数据的数据挖掘任务_Jupyter Notebook_.zip

使用Python和MATLAB比较机器学习算法和CDC问卷在预测糖尿病中的性能的ML项目.zip

边缘计算中的协作并行执行.pptx

基于spark的机器学习算法实现

基于Hadoop的一些机器学习算法.zip

xgboost算法,xgboost算法原理,Python

最新资源

大数据挖掘技术分享超大规模数据挖掘架构及方法论共26页.pdf

随机森林是一种集成学习方法，它通过构建多个决策树并组合它们的输出来改进预测性能在Python中，你可以使用scikit.rar