没有合适的资源?快使用搜索试试~ 我知道了~
大数据挖掘:概念与技术.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 58 浏览量
2022-11-17
04:33:54
上传
评论
收藏 48KB DOCX 举报
温馨提示
试读
12页
大数据挖掘:概念与技术.docx大数据挖掘:概念与技术.docx
资源推荐
资源详情
资源评论
实用标准文案
简介
本书完整全面地讲述数据挖掘的概念、方法、技术和最新研究进展。本书对前两版做了全面
修订,加强和重新组织了全书的技术内容,重点论述了数据预处理、频繁模式挖掘、分类和
聚类等的内容,还全面讲述了 OLAP 和离群点检测,并研讨了挖掘网络、复杂数据类型以及
重要应用领域。
本书是数据挖掘和知识发现领域内的所有教师、研究人员、开发人员和用户都必读的参考书,
是一本适用于数据分析、数据挖掘和知识发现课程的优秀教材,可以用做高年级本科生或者
一年级研究生的数据挖掘导论教材。
序言
社会的计算机化显著地增强了我们产生和收集数据的能力。大量数据从我们生活的每 个角
落涌出。存储的或瞬态的数据的爆炸性增长已激起对新技术和自动工具的需求,以帮助我们
智能地将海量数据转换成有用的信息和知识。这导致称做数据挖掘的 一个计算机科学前沿
学科的产生,这是一个充满希望和欣欣向荣并具有广泛应用的学科。数据挖掘通常又称为数
据中的知识发现(KDD),是自动地或方便地提取 代表知识的模式;这些模式隐藏在大型数
据库、数据仓库、Web、其他大量信息库或数据流中。
本书考察知识发现和数据挖掘的基本概念和技术。作 为一个多学科领域,数据挖掘从
多个学科汲取营养。这些学科包括统计学、机器学习、模式识别、数据库技术、信息检索、
网络科学、知识库系统、人工智能、高性 能计算和数据可视化。我们提供发现隐藏在大型
数据集中的模式的技术,关注可行性、有用性、有效性和可伸缩性问题。因此,本书不打算
作为数据库系统、机器学 习、统计学或其他某领域的导论,尽管我们确实提供了这些领域
的必要背景材料,以便读者理解它们各自在数据挖掘中的作用。本书是对数据挖掘的全面介
绍。对于 计算科学的学生、应用开发人员、行业专业人员以及涉及以上列举的学科的研究
人员,本书应当是有用的。
数据挖掘出现于 20 世纪 80 年代后 期,20 世纪 90 年代有了突飞猛进的发展,并可望
在新千年继续繁荣。本书全面展示该领域,介绍有趣的数据挖掘技术和系统,并讨论数据挖
掘的应用和研究方 向。写本书的重要动机是需要建立一个学习数据挖掘的有组织的框架—
—由于这个快速发展领域的多学科特点,这是一项具有挑战性的任务。我们希望本书有助于
具 有不同背景和经验的人交换关于数据挖掘的见解,为进一步促进这个令人激动的、不断
发展的领域的成长做出贡献。
本书的组织
自本书第 1 版、第 2 版出版以来,数据挖掘领域已经取得了重大进展,开发出了许多
新的数据挖掘方法、系统和应用,特别是对于处理包括信息网络、图、复杂结构和数据 流,
以及文本、Web、多媒体、时间序列、时间空间数据在内的新的数据类型。这种快速发展、
新技术不断涌现使得在一本书中涵盖整个领域的广泛内容非常困 难。因此,我们决定与其
继续扩大本书的涵盖面,还不如让本书以足够的广度和深度涵盖该领域的核心内容,而把复
杂数据类型的处理留给另一本即将面世的书。
第 3 版对本书的前两版做了全面修订,加强和重新组织了全书的技术内容,显著地扩
充和加强处理一般数据类型挖掘的核心技术。第 2 版中讨论特定主题的章节 (例如,数据
预处理、频繁模式挖掘、分类和聚类)在这一版都被扩充,每章都分成两章。对于这些主题,
一章囊括基本概念和技术,而另一章提供高级概念和方 法。
第 2 版关于复杂数据类型的章节(例如,流数据、序列数据、图结构数据、社会网络数
据和多重关系数据,以及文本、Web、多媒体和时间空间 数据)现在保留给专门介绍数据挖
精彩文档
实用标准文案
掘的高级课题的新书。为了支持读者学习这些高级课题,我们把第 2 版的相关章节的电子版
放在本书的网站上,作为第 3 版的配套 材料。
第 3 版各章的简要内容如下(重点介绍新的内容):
第 1 章提供关于数据挖掘的多学科领域的导论。该章讨论导致需要数据挖掘的 数据库
技术的发展历程和数据挖掘应用的重要性。该章考察挖掘的数据类型,包括关系的、事务的
和数据仓库数据,以及复杂的数据类型,如时间序列、序列、数据 流、时间空间数据、多
媒体数据、文本数据、图、社会网络和Web 数据。该章根据所挖掘的知识类型、所使用的技
术以及目标应用的类型,对数据挖掘任务进行了 一般分类。最后讨论该领域的主要挑战。
第 2 章介绍一般数据特征。该章首先讨论数据对象和属性类型,然后介绍基本统计数据
描述的典型度量。该章 概述各种类型数据的数据可视化技术。除了数值数据的可视化方法
外,还介绍文本、标签、图和多维数据的可视化方法。第2 章还介绍度量各种类型数据的相
似性和 相异性的方法。
第 3 章介绍数据预处理技术。该章首先介绍数据质量的概念,然后讨论数据清理、数据
集成、数据归约、数据变换和数据离散化的方法。
第 4 章和第 5 章是数据仓库、OLAP(联机分析处理)和数据立方体技术的引论。第4
章介绍数据仓库和 OLAP 的基本概念、建模、结构、一般实现,以及数 据仓库和其他数据泛
化的关系。第 5 章更深入地考察数据立方体技术,详细地研究数据立方体的计算方法,包括
Star-Cubing 和高维 OLAP 方法。该章 还讨论数据立方体和 OLAP 技术的进一步研究,如抽
样立方体、排序立方体、预测立方体、用于复杂数据挖掘查询的多特征立方体和发现驱动的
数据立方体的探 查。
第 6 章和第 7 章介绍挖掘大型数据集中的频繁模式、关联和相关性的方法。第 6 章介绍
基本概念,如购物篮分析,还有条理地提供了许多频繁项集 挖掘技术。这些涵盖从基本
Apriori 算法和它的变形,到改进性能的更高级的方法,包括频繁模式增长方法,使用数据
的垂直形式的频繁模式挖掘,挖掘闭频 繁项集和极大频繁项集。该章还讨论模式评估方法
并介绍挖掘相关模式的度量。第 7 章介绍高级模式挖掘方法。该章讨论多层和多维空间中的
模式挖掘,挖掘稀有和 负模式,挖掘巨型模式和高维空间数据,基于约束的模式挖掘和挖
掘压缩或近似模式。该章还介绍模式探查和应用的方法,包括频繁模式的语义注解。
第 8 章和第 9 章介绍数据分类方法。由于分类方法的重要性和多样性,内容被划分成
两章。第 8 章介绍分类的基本概念和方法,包括决策树归纳、贝叶斯分类和基于 规则的分
类。该章还讨论模型评估和选择方法,以及提高分类准确率的方法,包括组合方法和处理不
平衡数据。第 9 章讨论分类的高级方法,包括贝叶斯信念网络、 后向传播的神经网络技术、
支持向量机、使用频繁模式的分类、k-最邻近分类、基于案例的推理、遗传算法、粗糙集理
论和模糊集方法。附加的主题包括多类分 类、半监督分类、主动学习和迁移学习。
聚类分析是第 10 章和第 11 章的主题。第 10 章介绍数据聚类的基本概念和方法,包括
基本聚类分析方法的 概述、划分方法、层次方法、基于密度的方法和基于网格的方法。该
章还介绍聚类评估方法。第 11 章讨论聚类的高级方法,包括基于概率模型的聚类、聚类高
维数 据、聚类图和网络数据,以及基于约束的聚类。
第 12 章专门讨论离群点检测。本章介绍离群点的基本概念和离群点分析,并从各种监
督力度(监督 的、半监督的和无监督的)以及方法角度(统计学方法、基于邻近性的方法、
基于聚类的方法和基于分类的方法)讨论离群点检测方法。该章还讨论挖掘情境离群点 和
集体离群点,以及高维数据中的离群点检测。
最后,在第 13 章我们讨论数据挖掘的趋势、应用和研究前沿。我们简略地介绍挖掘复
杂数据类型,包 括挖掘序列数据(例如,时间序列、符号序列和生物学序列),挖掘图和
网络,以及挖掘空间、多媒体、文本和 Web 数据。这些数据挖掘方法的深入讨论留给正在 撰
精彩文档
实用标准文案
写的数据挖掘高级课题一书。然后,该章转向讨论其他数据挖掘方法学,包括统计学数据挖
掘、数据挖掘基础、可视和听觉数据挖掘,以及数据挖掘的应用。讨论 数据挖掘在金融数
据分析、零售和电信产业、科学与工程,以及入侵检测和预防方面的应用。该章还讨论数据
挖掘与推荐系统的联系。由于数据挖掘出现在我们日常 生活的方方面面,所以我们讨论数
据挖掘与社会,包括无处不在和无形的数据挖掘,以及隐私、安全和数据挖掘对社会的影响。
我们用考察数据挖掘的发展趋势结束 本书。
书中楷体字用于强调定义的术语,而黑体字用于突出主要思想。
本书与其他数据挖掘教材相比具有一些显著特点:它广泛、深入地 讨论了数据挖掘原
理。各章尽可能是自包含的,使得读者可以按自己感兴趣的次序阅读。高级章节提供了更大
的视野,感兴趣的读者可以选读。本书提供了数据挖掘 的所有主要方法,还提供了关于多
维 OLAP 分析等数据挖掘的重要主题,这些主题在其他书中常常被忽略或很少提及。本书还
维护了一个网站,其中包含大量在线 资源,为教师、学生和该领域的专业人员提供支持。
这些将在下面介绍。
致教师
本书旨在提供数据挖掘领域的一个广泛而深入的概览,可以作为高年级本科生或一年级
研究生的数据挖掘导论。除了讲稿、教师指南和阅读材料列表等教学资源之外,本书网站还
提供了一个样本课程安排。
根据授课学时、学生的背景和你的兴趣,你可以选取章节的子集,以不同的顺序进行讲
授。例如,如果你只打算给学生讲授数据挖掘入门导论,可以按照图P.1 的建议。注意,根
据需要,必要时可以省略其中某些节或某些小节。
图 P.1 入门导论课程的建议章节序列
根据学时和讲授范围,你可以有选择地把更多的章节增加到这个基本序列中。例如,
对高级分类方法更感兴趣的教师可以首先增加“第9 章 分类:高级方法”; 对模式挖掘
更感兴趣的教师可以选择包括“第 7 章 高级模式挖掘”;而对 OLAP 和数据立方体技术感
兴趣的教师可以增加“第 4 章 数据仓库与联机分析处理”和“第 5 章 数据立方体技术”。
或者,你可以选择在两个学期的系列课程中讲授整本书,包括本书的所有章节,时间允
许的话,加上图和网络挖掘这样的高级课题。这些高级课题可以从本书网站提供的配套材料
选择,辅以挑选的研究论文。
本书的每一章都可以用做自学材料,或者用做数据库系统、机器学习、模式识别和数据
智能分析等相关课程的专题。
每章后面都有一些习题,适合作为家庭作业。这些习题或者是用于测验对内容的掌握
情况的小问题,或者是需要分析思考的大问题,或者是实现设计。有些习题也 可以用做研
究讨论课题。每章后面的文献注释可以用来查找包含正文中提供的概念和方法的来源、相关
课题的深入讨论和可能的扩展的研究文献。
致学生
我们希望本书将激发你对年青,但正在快速发展的数据挖掘领域的兴趣。我们试图以
清晰的方式提供材料,仔细地解释所涵盖的主题。每一章后面都附有一个小 结,总结要点。
全书包含了许多图和解释,以便使本书更加有趣和便于阅读。尽管本书是作为教材编写的,
但是我们也试图把它组织成一本有用的参考书或手册,以 有助于你今后在数据挖掘方面进
行深入研究和求职。
为阅读本书,你需要知道什么?
·你应当具有关于统计学、数据库系统和机器学习的概念和术语方面的知识。然而,我
们尽力提供这些基础知识的足够背景,以便在读者对这些领域不太熟悉或者记忆有些淡忘时,
也能够理解本书的讨论。
精彩文档
剩余11页未读,继续阅读
资源评论
春哥111
- 粉丝: 1w+
- 资源: 5万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功