清华大学出品的大数据全套课程PPT学习课件,非常适合大学生和职场人士学习,也适合老鸟复习回顾,完全可用于自学入门,很经典好用的PPT课件哦~ 01.《大数据》配套PPT之一:第1章 大数据概念与应用 02.《大数据》配套PPT之二:第2章 数据采集与预处理 03.《大数据》配套PPT之三:第3章 数据挖掘算法(上) 03.《大数据》配套PPT之四:第3章 数据挖掘算法(下) 04.《大数据》配套PPT之五:第4章 大数据挖掘工具 05.《大数据》配套PPT之六:第5章 R语言 06.《大数据》配套PPT之七:第6章 深度学习 07.《大数据》配套PPT之八:第7章 大数据可视化 08.《大数据》配套PPT之九:第8章 互联网大数据处理 09.《大数据》配套PPT之十:第9章 大数据商业应用 10.《大数据》配套PPT之十一:第10章 行业大数据 《大数据》一书的第八章主要探讨了互联网大数据的处理,这一章分为多个部分,深入讲解了信息抓取、文本处理、数据存储和检索等相关技术。以下是对这些知识点的详细阐述: 1. **互联网信息抓取**:互联网信息抓取是大数据收集的重要环节,它通过网络爬虫自动抓取网页内容。爬虫分为通用爬虫和聚焦爬虫,前者广泛抓取互联网上的信息,后者则根据特定主题或目标进行定向抓取。常见的商业爬虫如Googlebot和百度蜘蛛,以及开源爬虫如GNU Wget和Apache Nutch,都是信息抓取的工具。Nutch是一个流行的选择,它可以在Hadoop环境中运行,用于大规模的数据抓取。 2. **Nutch爬虫**:Nutch是一个开源的网络爬虫项目,它可以部署在Linux环境下,并与Hadoop、HBase等大数据处理框架集成。在使用Nutch时,需要先安装JDK、HBase、Ant等依赖,然后配置和编译Nutch。Nutch的使用包括一站式抓取和分布式抓取两种模式,前者在local目录下运行,后者则涉及数据文件夹的管理和抓取列表的生成。 3. **案例:招聘网站信息抓取**:为了收集特定信息,如公司规模和分布,可以编写聚焦爬虫。爬虫工作流程包括生成种子URL、解析HTML、提取所需信息,以及利用多线程提高效率。Python是一种常用的语言,用于实现这类任务。 4. **案例:舆情信息汇聚**:网络舆情监控系统依赖于信息抓取技术,它由采集、分析和呈现三层构成。通过抓取网络上的相关信息,系统能够快速准确地获取舆情数据,进行分析并生成报告,为决策提供依据。在实践中,可以通过抓取特定网站的关键信息,如新闻主题和关键词,来实现对舆情的监控。 这些内容揭示了大数据处理在互联网环境中的实际应用,从数据采集的起点到信息的分析与利用,展示了大数据技术在解决具体问题时的威力。学习这部分知识对于理解大数据生态系统,尤其是互联网数据的获取和处理,具有重要的实践价值。
- maomaoxqw2021-09-15用户下载后在一定时间内未进行评价,系统默认好评。
- lxw636567762021-12-03用户下载后在一定时间内未进行评价,系统默认好评。
- jlong02252021-10-22用户下载后在一定时间内未进行评价,系统默认好评。
- 粉丝: 458
- 资源: 7362
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助