清华大学精品大数据全套课程PPT课件含习题（40页）第8章互联网大数据处理.pdf资源-CSDN文库

版权申诉

5星 · 超过95%的资源 34 浏览量 2021-05-29 23:19:09 上传评论收藏 6.63MB PDF 举报

清华大学出品的大数据全套课程PPT学习课件，非常适合大学生和职场人士学习，也适合老鸟复习回顾，完全可用于自学入门，很经典好用的PPT课件哦~ 01.《大数据》配套PPT之一：第1章大数据概念与应用 02.《大数据》配套PPT之二：第2章数据采集与预处理 03.《大数据》配套PPT之三：第3章数据挖掘算法（上） 03.《大数据》配套PPT之四：第3章数据挖掘算法（下） 04.《大数据》配套PPT之五：第4章大数据挖掘工具 05.《大数据》配套PPT之六：第5章 R语言 06.《大数据》配套PPT之七：第6章深度学习 07.《大数据》配套PPT之八：第7章大数据可视化 08.《大数据》配套PPT之九：第8章互联网大数据处理 09.《大数据》配套PPT之十：第9章大数据商业应用 10.《大数据》配套PPT之十一：第10章行业大数据《大数据》一书的第八章主要探讨了互联网大数据的处理，这一章分为多个部分，深入讲解了信息抓取、文本处理、数据存储和检索等相关技术。以下是对这些知识点的详细阐述： 1. **互联网信息抓取**：互联网信息抓取是大数据收集的重要环节，它通过网络爬虫自动抓取网页内容。爬虫分为通用爬虫和聚焦爬虫，前者广泛抓取互联网上的信息，后者则根据特定主题或目标进行定向抓取。常见的商业爬虫如Googlebot和百度蜘蛛，以及开源爬虫如GNU Wget和Apache Nutch，都是信息抓取的工具。Nutch是一个流行的选择，它可以在Hadoop环境中运行，用于大规模的数据抓取。 2. **Nutch爬虫**：Nutch是一个开源的网络爬虫项目，它可以部署在Linux环境下，并与Hadoop、HBase等大数据处理框架集成。在使用Nutch时，需要先安装JDK、HBase、Ant等依赖，然后配置和编译Nutch。Nutch的使用包括一站式抓取和分布式抓取两种模式，前者在local目录下运行，后者则涉及数据文件夹的管理和抓取列表的生成。 3. **案例：招聘网站信息抓取**：为了收集特定信息，如公司规模和分布，可以编写聚焦爬虫。爬虫工作流程包括生成种子URL、解析HTML、提取所需信息，以及利用多线程提高效率。Python是一种常用的语言，用于实现这类任务。 4. **案例：舆情信息汇聚**：网络舆情监控系统依赖于信息抓取技术，它由采集、分析和呈现三层构成。通过抓取网络上的相关信息，系统能够快速准确地获取舆情数据，进行分析并生成报告，为决策提供依据。在实践中，可以通过抓取特定网站的关键信息，如新闻主题和关键词，来实现对舆情的监控。这些内容揭示了大数据处理在互联网环境中的实际应用，从数据采集的起点到信息的分析与利用，展示了大数据技术在解决具体问题时的威力。学习这部分知识对于理解大数据生态系统，尤其是互联网数据的获取和处理，具有重要的实践价值。

资源推荐

资源评论