Ming of Massive Datasets
需积分: 0 100 浏览量
更新于2017-05-28
收藏 2.62MB PDF 举报
### 大规模数据集挖掘(Mining of Massive Datasets)
#### 概述
《大规模数据集挖掘》这本书由Anand Rajaraman、Jure Leskovec 和 Jeffrey D. Ullman 共同编著,主要关注如何处理和分析非常庞大的数据集——即那些无法完全装入主内存的数据。书中不仅涵盖了数据挖掘的基础理论,还深入探讨了适用于超大数据集的特定技术和算法。
#### 书籍背景与发展历程
该书起源于斯坦福大学的一门课程“Web Mining”,最初作为一门高级研究生课程开设,但随着时间的发展,它逐渐变得对高年级本科生也具有吸引力。随着 Jure Leskovec 加入斯坦福大学,课程内容得到了显著扩展与重组,并增加了网络分析方面的内容。同时,原课程编号被改为 CS246,并新增了一门名为 CS341 的大规模数据挖掘项目课程。本书的内容涵盖了这三门课程的教学内容。
#### 书籍主要内容
本书分为八个主要部分,涵盖了数据挖掘领域的多个核心话题:
1. **分布式文件系统与MapReduce**:介绍分布式文件系统(如Hadoop HDFS)和MapReduce框架,这些工具和技术为开发能够处理超大数据集的并行算法提供了基础。
2. **相似性搜索**:包括关键的相似性搜索技术如MinHashing和局部敏感哈希(Locality-Sensitive Hashing, LSH)。这些技术用于高效地检索出数据集中最相似的对象。
3. **数据流处理**:探讨针对高速流入的数据进行实时处理的方法和技术。这种类型的处理对于社交媒体监控、网络安全以及金融交易等场景至关重要。
4. **搜索引擎技术**:涵盖搜索引擎的关键组成部分,如Google的PageRank算法、链接垃圾检测方法以及Hubs和Authorities模型等。
5. **频繁项集挖掘**:介绍关联规则挖掘、市场篮子分析、Apriori算法及其改进版本等技术。这些技术在零售业、市场营销等领域有着广泛的应用。
6. **大规模聚类算法**:探讨如何在具有高维度特征的大规模数据集上执行聚类分析。此类算法在推荐系统、生物信息学以及图像识别等多个领域都有应用。
7. **Web应用程序中的关键问题**:讨论两个重要的Web应用程序领域——广告管理和推荐系统的设计与优化策略。
8. **大规模图分析**:专注于分析大型图结构(如社交网络图)的有效算法和技术,包括社区发现、图分割以及影响力最大化等问题。
#### 先决条件
为了充分理解本书的内容,读者需要具备一定的先决知识:
- 计算机科学基础知识:了解基本的数据结构与算法。
- 编程技能:熟悉至少一种编程语言,最好是能够处理大数据的语言如Python或Java。
- 数学基础:掌握概率论、线性代数以及统计学的基本概念。
通过本书的学习,读者将能够深入理解如何利用现代计算平台(如云计算和分布式计算系统)来解决实际问题,并掌握一系列高级数据分析技巧。这对于从事数据科学家、机器学习工程师以及相关领域的专业人士来说是非常有价值的资源。