miningofmassivedatasets资源-CSDN文库

4星 · 超过85%的资源需积分: 10 189 浏览量 2014-03-13 19:35:01 上传评论收藏 2.85MB PDF 举报

《大规模数据挖掘》这本书主要关注的是数据挖掘技术在处理极其大量的数据时的应用，尤其当数据量大到无法完全载入主内存时的处理方式。书中探讨的核心议题围绕如何利用算法来直接对数据进行分析，而不是仅仅使用数据来训练某种机器学习引擎。这本书的结构和内容主要围绕以下九个主题展开： 1. 分布式文件系统和MapReduce：分布式文件系统是构建在多个物理设备上的文件系统，能够提供跨网络的文件访问。MapReduce是一种编程模型，用于简化大规模数据集的并行运算。书中介绍了如何使用MapReduce工具来创建能够在非常大量数据上成功运行的并行算法。 2. 相似性搜索：相似性搜索包含寻找数据集中相似或相同的元素的过程。书中介绍了两种关键技术：MinHashing（最小哈希）和Locality-Sensitive Hashing（局部敏感哈希），这些都是用来高效地处理大规模数据集中的相似性搜索问题。 3. 数据流处理：数据流指的是以极快的速度连续到达的数据，需要被立即处理否则就会丢失。书中涉及了数据流处理以及专门针对这类数据设计的算法。 4. 搜索引擎技术：搜索引擎涉及搜索结果的排序和呈现，例如Google的PageRank算法和网络垃圾链接检测。书中还讨论了枢纽和权威页方法等。 5. 频繁项集挖掘：频繁项集挖掘旨在发现数据集中经常一起出现的元素组合。书中包含了关联规则、市场篮分析、A-Priori算法及其改进方法的介绍。 6. 高维数据集的聚类算法：在处理维度非常高，数据量非常大的数据集时，聚类算法可以发现数据中的潜在结构。这些算法可以帮助我们高效地组织和理解大规模的数据集。 7. Web应用中的关键问题：其中包括管理和优化网络广告，以及推荐系统的构建。 8. 分析和挖掘大规模图结构的算法：特别针对社交网络图的分析，例如计算网络中重要节点的方法。 9. 获得重要属性的技术：虽然未在摘录中详细说明，但可能涉及提取数据集中的关键特征或模式。通过这些内容，我们可以看出，这本书不仅为读者提供了大规模数据挖掘领域的基础理论，同时也包括了大量的实践应用案例，尤其关注了网络数据，这是因为很多情况下数据挖掘技术都是在处理Web数据或者基于Web数据集的。此外，书中内容不仅适用于高级研究生，也对高级本科生有吸引力，因为其内容和示例贴近实际，易于理解且具有挑战性。而这本书的三位作者都是斯坦福大学的教授，他们在数据挖掘和相关领域具有丰富的教学和研究经验。因此，该书无疑成为了数据挖掘领域的权威参考书籍之一。

资源推荐

资源详情

资源评论