没有合适的资源?快使用搜索试试~ 我知道了~
数据挖掘研究现状综述.docx
资源详情
资源评论
资源推荐
数据挖掘
引言
数据挖掘是一门交叉学科,涉及到了机器学习、模式识别、归纳推理、统
计学、数据库、高性能计算等多个领域。
所谓的数据挖掘(Data Mining)指的就是从大量的、模糊的、不完全的、
随机的数据集合中提取人们感兴趣的知识和信息,提取的对象一般都是人们无
法直观的从数据中得出但又有潜在作用的信息。从本质上来说,数据挖掘是在
对数据全面了解认识的基础之上进行的一次升华,是对数据的抽象和概括。如
果把数据比作矿产资源,那么数据挖掘就是从矿产中提取矿石的过程。与经过
数据挖掘之后的数据信息相比,原始的数据信息可以是结构化的,数据库中的
数据,也可以是半结构化的,如文本、图像数据。从原始数据中发现知识的方
法可以是数学方法也可以是演绎、归纳法。被发现的知识可以用来进行信息管
理、查询优化、决策支持等。而数据挖掘是对这一过程的一个综合性应用。
目录
引言........................................................................................................................................ 1
第一章 绪论..............................................................................................................................3
1.1 数据挖掘技术的任务....................................................................................................... 3
1.2 数据挖掘技术的研究现状及发展方向............................................................................ 4
第二章 数据挖掘理论与相关技术............................................................................................7
2.1 数据挖掘的基本流程....................................................................................................... 7
2.2.1 关联规则挖掘...................................................................................................... 10
2.2.2 .Apriori 算法:使用候选项集找频繁项集..........................................................10
2.2.3 .FP-树频集算法.................................................................................................... 11
2.2.4.基于划分的算法.................................................................................................. 11
2.3 聚类分析........................................................................................................................ 12
2.3.1 聚类算法的任务.................................................................................................. 12
2.3.3 COBWEB 算法...................................................................................................... 14
2.3.4 模糊聚类算法 FCM.............................................................................................. 16
2.3.5 聚类分析的应用.................................................................................................. 17
第三章 数据分析.....................................................................................................................17
3.1 数据挖掘软件平台 RapidMiner 介绍............................................................................. 17
3.2 K-近邻算法(KNN)分析....................................................................................... 19
3.3.4 决策树分析.......................................................................................................... 21
3.3.4 神经网络分类结果.............................................................................................. 21
第四章 结论与心得.................................................................................................................22
4.1 结果分析........................................................................................................................ 22
4.2 问题分析........................................................................................................................ 22
4.2.1 数据挖掘面临的问题..........................................................................................22
4.2.2 实验心得及实验过程中遇到的问题分析...........................................................23
参考文献.................................................................................................................................24
第一章 绪论
1.1 数据挖掘技术的任务
数据挖掘技术并不是仅仅面向特定数据库的简单检索查询,而是对大量的
数据从宏观、微观的角度进行统计、分析、综合和推理,进而来指导现实生活
中实际问题的解决,有时还要根据已有的数据展开推理预测。数据挖掘的主要
任务是分类、聚类、关联、序列等。
分类就是在数据中找出一个类别的概念描述,这个概念代表了这类数据的
基本信息,即该类概念的内涵描述,然后根据这种描述建立模型。常用的分类
构造方法主要有统计方法、机器学习方法、神经网络方法等。其中统计方法包
括贝叶斯法和非参数法,机器学习方法包括决策树法和规则归纳法,神经网络
法主要是以 BP 算法为主。
聚类就是把具有相似性的数据归纳成若干类别,同一类别的数据相似,不
同类别的数据相异,聚类分析可以在分类的基础上进一步建立宏观的概念,进
而发现数据的分布模式。
当两个或者两个以上变量的取值直接存在某种规律性时,我们就可以称之
为关联。
序列和关联类似,只是把关联中一起发生的项目间关系扩展成一段时间的
项目集间的关系,因此,序列常常被看作由时间变量连起来的关联。序列的主
要作用是分析长时间的相关记录,进而发现经常发生的模式。
1.2 数据挖掘技术的研究现状及发展方向
近年来,随着计算机科学领域的快速发展,数据挖掘技术作为一种新兴的
学科,其研究热度正在逐渐升温,研究的水平也在逐步提高,同时由于国家政
府的政策支持与资金支持,越来越多的数据专业研究者被吸引加入其中。在数
剩余24页未读,继续阅读
l18716038669
- 粉丝: 0
- 资源: 8
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0