论文研究-数据挖掘试验平台DMLab的设计与原型实现 .pdf

所需积分/C币:6 2019-08-17 12:44:02 279KB .PDF

数据挖掘试验平台DMLab的设计与原型实现,陈明,范文建,介绍了一个数据挖掘试验平台DMLab的设计与实现。DMLab是一个专门为数据挖掘研究人员进行算法试验而设计的集成开发环境,与其他挖掘��
山国科技论文在线 )薮据解析( 〕:从数据源读取数据,并解析成统一格式的內行数据集对象—一数 据矩阵;数据 是实质上是一个数据加载器的集合,由若干支持各种类型数据源的加载 器组件组成,比如 等,并且集成了对所有加载器组件的管理功能; 基」这个设计模式,用户可以方使地对数据 进行扩展以支持更多类型的数据源。 )数据探索 ):主要是对数据进行图形化表示和统计分析,使得用户对数据集对 象有个直观的、整体上的认识,从而提髙用户配置预处理过程和设计挖掘算法的准确性和效率: )数据顶处理( ):包含了比如空缺值、噪声数据、不一致数据等的处理以及数据 的集成和变换、数据归约、离散化、概念分层等诈多操作;因为数据预处理是关系到数据挖掘 效率和效果的关键步骤,所以这个子模块也是整个系统的重要模块之一。 为了提高系统对人型数据集的快速响应能丿,系统刈数据集取样技术进行了特别的设 计,即在数据加载数据源之前就预先进行预取样配置,包括征对数据实例的行取样和征 对数据属性的列取样(乜称为属性选择),这样在取样配置中所丟弃的数据元素根本就没有被 读入内存,这样当用户只是想利用大型数据集中的一小部分数据进行挖掘的时候就可以大大提 高数据集的加载效率 系统的数据集传输都以 结构实现,这种分离数据服务和数据消费的模式既方便了数据 集在两者之间的传输又提供了数据集的跨网络使用模式,大大提高了数据集的利用效率。数据处理 模块通过 子模块实现了数据集的服务功能,这样用户就可以在算法中通过 连接 来获取数据矩阵,实现数据消费。 算法开发环境( )算法编辑:以图形窗口的方式为用户提供算法编辑服务,这里将吸攻其他一些优秀的代码编辑 工具的优点以提高效率,比如语法高亮显示、自动缩进、语句自动完成等; )算法调试:图形化的调试方式,能单步执行,能设置断点,能监视堆栈、局部变量,诂法错误 定位;为了方便用户对算法的调试,降低算法实现难度,该系统采用脚本的方式来实现用户算 法,而且直接引用了 的语法和解释引擎来实现,这既考虑到用户算法脚本与系统本身的 集成的紧密性,又考虑到 语言强大的功能和稳定的性能; )算法管理:对算法脚本进行统一的管理 )算法库:就是实现一些有代表性的经典数据挖掘算法,用」测试系统功能、为用户自凵设计算 法提供参考、作为用户算法的比较标准。 算法试验环境( 这是整个系统的核心模块之一,标志着系统存在的根本意义,用户开发的算法只有在这里进行 适当的试验,并对算法运行结果给以适当分析,对算法进行适当的评价,才可以确认其实用性,只 有运行结果优秀的算法才有存在意义 )流程控制:试验流稈就是用户设定的一系列试验步骤,系统把这些有序的试验步骤放置在 个脚本中,称为流程描述脚本,然后依次执行该脚本中的命令行就可以得到试验结果。试验 般有两种情况,一是同一算法对不同薮据集的对比试验,从这里可以论证算法对数据集的适 应性,二是同一数据集对不同算法的对比试验,从这里可以找出适应某种类型数据集最好的算 )结果表示:有字符和图形两种表示方式,尤其是图形化的结果表示可以给用户直观、形象的 理解;现阶段仼何技术的智能化水平都无法跟人类相比,所以将挖掘过程以图形化的方式呈现 给用户,由用户根据专业知识进行判断然后作岀相应的挖掘决策比纯粹的机器自动挖掘过程史 加准确、高效 )结果分析:当然结果的分析还离不开对分析结果的可视化,可视化技术使得用户可以对算 法的性能得到直观的认识。 数据挖掘基类 山国科技论文在线 这个模块是系统最核心的模块,它定制了用户的所有挖掘算法的底层挖掘模型,提供了各个底 层控掘接口,是参照 及 的形式设计的,是为了方便用户开发算法程序而设计 的挖掘专用抽象接口,包括四个部分:预处理、挖掘算法、结果表示和其他公用的基础函数,如输 入函薮(参数)、输出跞数(算法运行状态和结果)、可视化接口、统计跞数等等。 模块集成( 该平台由数据处理、开发环境和试验环境等三个模块和一个挖掘函数库组成,这四部分 在结构和功能上相对独立,分别以组件的方式焦成到系统主框架之中,见图 预处理 挖掘算法 结果表示 数据挖握基类 系统主框架 数据处理 1算法开发环境 笋法试验环境 数据解析 算法编辑 流程控郜 数掂探索 算法调试 结果表示 数据预处理 算法管理 结果分析 图 系统集成方式示意图 系统架构设计是软件工稈设计中非常重要的部分它关系到整个系统的体系结构、编码效 率、正确性以及系统的维护和玏能扩展。因此亢善的系统架构设计可以大大提高编码敚率,减 少软件测试及后期系统维护的工作量 总体设计 该系统采取晑度模块化的方式设计,各个模块内部以组件方式设计,这使得系统的结构层 次分明,具有很强的可扩展性。从图可以清晰的看出系统的逻辑结构。 设计原则 高度模块化:系统按功能划分为若十模块各模块相对独立地运行“高内聚低耦合”使系统 结构清晰合理易理解、易维护、易扩展。当某个模块岀现问题时其它模块不受影响保证系统 的整体稳定性并可以快速简便地定位故障所在。 通信方式规范化:从系统内部来说,各个模块之间的通信内容主要有待挖掘数据集和各个 脚本文件(包括算法脚本,流程描述脚本,结果存储脚本);其中数据集通信都以 结构实现,这样分离数据服务和教据消费的模式既方便了数据集在两者之间的传输又提供数据 集的跨网络使用模式,人人提高了数据集的利用效率;系统的脚本都基于磁盘文件,所以通过 即可在模块之问共享脚本 模块內部的子模块之间釆用组件技术组织每个组件仅实现单一的功能。组件的优点是高度模 块化和高度可重用性大大简化了系统的编码工作减少代码冗余也减轻了开发和维护的负担。 系统实现 这个算法试验平台是综合性的软件系统,其设计具有相当的难度,工作量也很大,所以在系统 的设计上我们作出了一定的简化,比如完全用脚本语言米实现整个系统,这样免除了单独设计脚本 山国科技论文在线 语法和解释引擎的L作,同时也没有脚本嵌入的困难,但是这并没有降低系统的功能,而且系统扩 展性増强,很多模块甚至整个系统以后都可以用+十等执行效率更高的语言改写。由于采用 来编程,开发的难度将大大地降低,这使得我们可以将精力投入在系统的设计上,因为系统 设汁的好坏决定着用户使用的容易程度和系统的可扩展性,为以后系统的进一步完羔奠定基础。 结论 本文主要介绍了数据挖掘集成试验平台 的体系结构和各模块的功能与设计方法。本系 统是一个数据挖掘集成试验平台的原型系统在一些方面还需要进一步完善和补充。例如在实现语 言的选择上可以用融合十+的模式来代替目前的纯 开发,从而提高系统运行效率 可视化技术在试验过程中具有举足轻重的作用,所以系统还需要在这方面进一步提高。另外还应补 充挖掘模型的评估算法以达到自动评估试验效果的目的。通过进一步完善和补充最终可形成一个 较完备的数据挖掘试验平台。 参考文献 何熠东数据挖掘工具 的设计与实现中国图像图形学报 徐小平面向组件的商务决策分析系统的设计与实现计算机程与科学 作者简介:陈明,男,年生,硕士研究生,主要研究方向是薮据挖掘。

...展开详情
img

关注 私信 TA的资源

上传资源赚积分,得勋章
最新资源