《大规模数据挖掘》这本书主要关注的是数据挖掘技术在处理极其大量的数据时的应用,尤其当数据量大到无法完全载入主内存时的处理方式。书中探讨的核心议题围绕如何利用算法来直接对数据进行分析,而不是仅仅使用数据来训练某种机器学习引擎。这本书的结构和内容主要围绕以下九个主题展开: 1. 分布式文件系统和MapReduce:分布式文件系统是构建在多个物理设备上的文件系统,能够提供跨网络的文件访问。MapReduce是一种编程模型,用于简化大规模数据集的并行运算。书中介绍了如何使用MapReduce工具来创建能够在非常大量数据上成功运行的并行算法。 2. 相似性搜索:相似性搜索包含寻找数据集中相似或相同的元素的过程。书中介绍了两种关键技术:MinHashing(最小哈希)和Locality-Sensitive Hashing(局部敏感哈希),这些都是用来高效地处理大规模数据集中的相似性搜索问题。 3. 数据流处理:数据流指的是以极快的速度连续到达的数据,需要被立即处理否则就会丢失。书中涉及了数据流处理以及专门针对这类数据设计的算法。 4. 搜索引擎技术:搜索引擎涉及搜索结果的排序和呈现,例如Google的PageRank算法和网络垃圾链接检测。书中还讨论了枢纽和权威页方法等。 5. 频繁项集挖掘:频繁项集挖掘旨在发现数据集中经常一起出现的元素组合。书中包含了关联规则、市场篮分析、A-Priori算法及其改进方法的介绍。 6. 高维数据集的聚类算法:在处理维度非常高,数据量非常大的数据集时,聚类算法可以发现数据中的潜在结构。这些算法可以帮助我们高效地组织和理解大规模的数据集。 7. Web应用中的关键问题:其中包括管理和优化网络广告,以及推荐系统的构建。 8. 分析和挖掘大规模图结构的算法:特别针对社交网络图的分析,例如计算网络中重要节点的方法。 9. 获得重要属性的技术:虽然未在摘录中详细说明,但可能涉及提取数据集中的关键特征或模式。 通过这些内容,我们可以看出,这本书不仅为读者提供了大规模数据挖掘领域的基础理论,同时也包括了大量的实践应用案例,尤其关注了网络数据,这是因为很多情况下数据挖掘技术都是在处理Web数据或者基于Web数据集的。此外,书中内容不仅适用于高级研究生,也对高级本科生有吸引力,因为其内容和示例贴近实际,易于理解且具有挑战性。而这本书的三位作者都是斯坦福大学的教授,他们在数据挖掘和相关领域具有丰富的教学和研究经验。因此,该书无疑成为了数据挖掘领域的权威参考书籍之一。
剩余502页未读,继续阅读
- swingline2014-06-19不错的入门书籍,英文版,无目录标签
- hyfjjjj2016-01-23很不错的一本书
- 粉丝: 12
- 资源: 22
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助