【免费】《网络数据采集》第3章课件201911221资源-CSDN文库

需积分: 0 184 浏览量 2022-08-04 00:21:05 上传评论收藏 688KB PDF 举报

【网络数据采集】是关于如何使用技术手段获取网络上的信息，特别是Web页面内容的主题。本章节专注于使用Python语言开发网络爬虫，以便高效地抓取和处理网页信息。网络爬虫是一个自动遍历互联网的程序，它能按照一定规则抓取网页并提取所需数据。在【第3章 Web页面爬取】中，首先介绍了网络爬虫的基本工作流程，分为五个关键步骤： 1. **确定目标URL**：明确要爬取的网页地址，并将其作为初始的爬取种子。 2. **发送HTTP请求**：模拟浏览器行为，向服务器发送请求以获取网页内容。 3. **解析HTML文档**：接收服务器返回的HTML响应，解析其中的目标数据和新的URL。 4. **存储数据和资源**：将提取的数据按需格式化存储，同时下载如图片、视频等其他资源。 5. **继续爬取**：将新发现的URL加入待爬取队列，重复以上步骤直至队列为空。接着，课程讲解了使用Python的两个库——Urllib和Requests，来实现网络爬虫的功能： - **Urllib基础**：Urllib是Python标准库中的一个模块集合，用于处理URL相关的各种操作。学习如何使用Urllib构建简单的爬虫程序，涉及打开URL、读取网页内容等基本功能。 - **Requests优化**：Requests是一个更高级且易于使用的库，它可以更好地处理HTTP请求，包括设置HTTP头、处理cookies、管理会话等，从而提升爬虫程序的效率和稳定性。在实践中，课程可能会通过案例分析和模块练习来帮助学生巩固这些概念。例如，创建一个简单的Python脚本来抓取并解析一个网页，提取出特定的信息，如文章标题、链接等。安装和配置开发环境也是课程的一部分。推荐使用Anaconda，因为它是一个包含Python及许多科学计算库的集成环境。安装Anaconda后，会利用其内置的Jupyter Notebook作为交互式开发工具，便于编写和运行Python代码，同时也方便数据可视化和文档记录。通过本章的学习，学生应能理解网络爬虫的工作原理，掌握使用Python Urllib和Requests库进行网页爬取的基本技巧，以及如何在实际环境中设置和使用这些工具。这为后续深入的数据分析和挖掘奠定了基础。

资源详情

资源评论

资源推荐

网络

爬

虫

与

数

据

采

集

课

程

第

章

Web

页

面

爬

取

课

前

引

导

本节课我们将介绍使用python开发网络爬虫的基本方法，尝试获取web页面信息。

上

节

回

顾

上节课介绍了：

网络爬取的入口

网页下载的原理

内容解析的对象

存储数据的仓库

本

节

课

程

主

要

内

容

内容列表：

本节目标

爬取Web页面的基本过程；

使用Urllib实现基本Web页面爬取；

使用Requests优化页面爬取过程；

本节总结

课后练习

3.1

本

节

目

标

本节课的主要目标：

使学生理解web页面爬取的基本过程

使学生能够运用python urllib库设计自己的简单web页面爬取程序；

使学生能够应用requests库，设计可用性良好的web页面爬取程序。

1.请从Anaconda官方网站或清华大学开源软件镜像站下载支持Python3 的Anaconda安装包并启动

安装过程。Windows下适用的Anaconda安装包是一个exe可执行程序，双击它启动安装过程；

2.在阅读产品的License文档并点击“I Agree”后，选择为“Just Me”或是“All users”安装该程序，然后

选择存放Anaconda的本地路径，我们建议初学者使用默认路径。如果要设置自定义路径，请不要

使用有空格和非unicode字符的路径，否则会出现错误。

3.选择将Anaconda增加到本地PATH路径，并选择将Anaconda作为您的默认python编译器。

4.点击“Finish”完成安装，之后您可以在Windows“启动”的程序列表中查看到Anaconda的启动快捷

方式，为了验证安装是否成功，您可以点击运行“Anaconda navigator”，查看是否有弹出一个

Anaconda 的导航界面。

经过上述4步，Anaconda就安装好了，但如果你在安装中出现了异常错误，可以在互联网上搜索解答信

息。

安装好Anaconda后，我们需要启动交互式的Python开发环境。我们选择目前十分流行的Jupyter

notebook作为我们的交互式开发环境。

启动方法很简单，在“Anaconda navigator”界面中就有启动Jupyter notebook的按钮，点击之后就可以启

动了。此外，在Windows的程序列表中还有单独的“Jupyter notebook”启动项，点击后也可启动它。启

动后的Jupyter notebook，通常会使用默认的浏览器打开一个页面，这个页面的URL是

http://localhost:8888/tree,

为了讨论方便，同学们可以在Windows当前用户目录中的“我的文档”中新建一个名

为“MyWebCrawlers”的新文件夹，用来存放我们将要编写的爬虫程序。通过Jupyter notebook打开页面

的“new”按钮也可以实现这一点。

上述准备工作完成之后，下面我们就开始来编写自己的第一个网络爬虫程序吧？

首先让我们在Jupyter notebook打开的浏览器页面上，进入刚才建立的“MyWebCrawlers”文件夹，然

后，点击右上方的“new”按钮，生成一个“Python3”文档。这个文档将是我们编写程序的主要场所。

我们编写Python网络爬虫时，需要借助一些支持库来简化我们的编写过程，例如使用Python3内置的

Urllib库就是一个不错的选择。Urllib库中包含了4个处理URL的模块，分别是：

Urllib.request，它用于打开和读取URL。

在Urllib.request模块中定义了一些打开url的方法和类，除了可以帮助我们获取web页面，还可

以帮助我们处理简单或摘要类型的页面认证，页面重定向、以及cookies等访问web页面时的常

见问题。

urllib.error ，它包含了request模块可能引发的异常；

urllib.parse ，它用于解析URL

urllib.robotparser 用于解析 robots.txt 文件。

这些模块的使用细节，我们将在接下来的课程中依次讲解。

剩余37页未读，继续阅读

评论收藏

内容反馈

学习呀三木

粉丝: 24
资源: 303

《网络数据采集》第3章课件201911221

评论0

最新资源

《网络数据采集》第3章课件201911221

评论0

《网络数据采集》第1章课件201911221

《网络数据采集》第2章课件201911221

《网络数据采集》第4章课件201911221

《网络数据采集》第7章课件201912131

清华大学精品大数据全套课程PPT课件含习题（34页）第2章 数据采集与预处理.pdf

已整理好的数据采集与处理技术课件，马建明编著

数据采集系统设计课件

3版仪器分析第2节-数据采集与计算机控制课件.ppt

清华大学精品大数据课程PPT课件（48页） 第3章 大数据采集及预处理.pptx

清华大学精品大数据全套课程PPT课件含习题（36页）第4章 大数据挖掘工具.pdf

清华大学精品大数据课件之数据标注课程PPT课件含习题 全套PPT课件集合 共7个章节.rar

清华大学精品大数据全套课程PPT课件含习题（31页）第3章 数据挖掘算法（上）.pdf

清华大学精品大数据全套课程PPT课件含习题（40页）第8章 互联网大数据处理.pdf

大数据必修课 数据标注工程课程 数据标注自学教程资料含练习题 第3章 数据标注分类 共15页.pptx

清华大学精品大数据全套课程PPT课件含习题（54页）第10章 行业大数据.pdf

清华大学精品大数据全套课程PPT课件含习题（33页）第7章 大数据可视化.pdf

大数据导论课件，第一章什么是大数据

清华大学精品大数据全套课程PPT课件含习题（36页）第5章 R语言.pdf

LabVIEW宝典课件.ppt

剖析大数据核心技术和实战应用 清华大数据课程课件含习题 第1章 大数据概念与应用（32页）.pdf

剖析大数据核心技术和实战应用 清华大数据课程课件含习题 第9章 大数据商业应用（47页）.pdf

BurpLoaderKeygen.jar.zip

最新版ISO/IEC 27001:2022、ISO 27002:2022中英文合集

Goby红队版-win-x64-2.4.7版本

Chrome Header Editor 插件

ISO SAE 21434-2021 中文版.pdf

OpenVAS GVM 中文翻译补丁

最新资源

清华大学精品大数据全套课程PPT课件含习题（34页）第2章数据采集与预处理.pdf

清华大学精品大数据课程PPT课件（48页）第3章大数据采集及预处理.pptx

清华大学精品大数据全套课程PPT课件含习题（36页）第4章大数据挖掘工具.pdf

清华大学精品大数据课件之数据标注课程PPT课件含习题全套PPT课件集合共7个章节.rar

清华大学精品大数据全套课程PPT课件含习题（31页）第3章数据挖掘算法（上）.pdf

清华大学精品大数据全套课程PPT课件含习题（40页）第8章互联网大数据处理.pdf

大数据必修课数据标注工程课程数据标注自学教程资料含练习题第3章数据标注分类共15页.pptx

清华大学精品大数据全套课程PPT课件含习题（54页）第10章行业大数据.pdf

清华大学精品大数据全套课程PPT课件含习题（33页）第7章大数据可视化.pdf

剖析大数据核心技术和实战应用清华大数据课程课件含习题第1章大数据概念与应用（32页）.pdf

剖析大数据核心技术和实战应用清华大数据课程课件含习题第9章大数据商业应用（47页）.pdf