没有合适的资源？快使用搜索试试~ 我知道了~

文库首页后端PythonPython之如何学好爬虫原理.pdf

Python之如何学好爬虫原理.pdf

python爬虫

需积分: 5 1 下载量 34 浏览量 2024-11-08 09:33:02 上传评论收藏 3.65MB PDF 举报

温馨提示

试读

15页

Python之如何学好爬虫原理

资源推荐

资源详情

资源评论

Python爬虫基础及运用

爬虫的基本原理

一、爬虫概述

简单来说，爬虫就是获取网页并提取和保存信息的自动化程序，下面概要介绍一

下。

i . 获取网页

爬虫首先要做的工作就是获取网页，这里就是获取网页的源代码。源代码里包含

了网页的部分有用信息，所以只要把源代码获取下来，就可以从中提取想要的信

息了。

前面讲了请求和响应的概念，向网站的服务器发送一个请求，返回的响应体便是

网页源代码。所以，最关键的部分就是构造一个请求并发送给服务器，然后接收

到响应并将其解析出来，那么这个流程怎样实现呢？总不能手工去截取网页源码

吧？

不用担心Python提供了许多库来帮助我们实现这个操作，如 urllib. requests

等。我们可以用这些库来帮助我们实现HTTP请求操作,请求和响应都可以用

类库提供的数据结构来表示，得到响应之后只需要解析数据结构中的Body部

分即可，即得到网页的源代码，这样我们可以用程序来实现获取网页的过程了。

2.提取信息

获取网页源代码后，接下来就是分析网页源代码，从中提取我们想要的数据。首

先，最通用的方法便是采用正则表达式提取，这是一个万能的方法，但是在构造

正则表达式时比较复杂且容易出错。另外，由于网页的结构有一定的规则，所以

还有一些根据网页节点属性、CSS选择器或XPath来提取网页信息的库，如

Beautiful Soup、pyquery. Ixm l等。使用这些库，我们可以高效快速地从中

提取网页信息、，如节点的属性、文本值等。

提取信息是爬虫非常重要的部分，它可以使杂乱的数据变得条理清晰，以便我们

后续处理和分析数据。

» 保存数据

提取信息后，我们一般会将提取到的数据保存到某处以便后续使用。这里保存形

式有多种多样，如可以简单保存为TX T文本或JSON文本，也可以保存到数

据库，如 MySQL和 MongoDB等，也可保存至远程服务器，如借助 SFTP进

行操作等.

4 .自动化程序

说到自动化程序，意思是说爬虫可以代替人来完成这些操作。首先，我们手工当

然可以提取这些信息，但是当量特别大或者想快速获取大量数据的话，肯定还是

要借助程序。爬虫就是代替我们来完成这份爬取工作的自动化程序，它可以在抓

取过程中进行各种异常处理、错误重试等操作，确保爬取持续高效地运行。

二、能抓怎样的数据

在网页中我们能看到各种各样的信息，最常见的便是常规网页，它们对应着

H T M L 代码，而最常抓取的便是 H T M L 源代码，

另外，可能有些网页返回的不是H T M L 代码，而是一个 JS O N 字符串（其中

A P I接口大多采用这样的形式），这种格式的数据方便传输和解析，它们同样

可以抓取，而且数据提取更加方便。

此外，我们还可以看到各种二进制数据，如图片、视频和音频等。利用爬虫，我

们可以将这些二进制数据抓取下来，然后保存成对应的文件名。

另外，还可以看到各种扩展名的文件，如 CSS. JavaScript和配置文件等，这

些其实也是最普通的文件，只要在浏览器里面可以访问到，就可以将其抓取下来。

上述内容其实都对应各自的URL ,是基于 HTTP或 HTTPS协议的，只要是这

种数据，爬虫都可以抓取。

三、JavaScript渲染页面

有时候

，

我们在用 u rllib 或 requests抓取网页时，得到的源代码实际和浏览

器中看到的不一样。

剩余14页未读，继续阅读

评论收藏

内容反馈

资源评论

资源反馈

评论星级较低，若资源使用遇到问题可联系上传者，3个工作日内问题未解决可申请退款~

无敌开心

粉丝: 1938
资源: 10万+

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

Python之如何学好爬虫原理.pdf

Python网络爬虫实战.pdf

精通Python爬虫框架Scrapy.pdf

基于Python的网络爬虫技术.pdf

艾伯特Python网络爬虫实战.pdf

Python爬虫入门教程：超级简单的Python爬虫教程.pdf

常用的 Python 爬虫技巧.pdf

Python爬虫总结教学提纲.pdf

基于python的网络爬虫设计.pdf

Python网络爬虫进阶教程.pdf

python编写知乎爬虫实践.pdf

python 爬虫基本知识.txt

Python爬虫情况总结.pdf

python-网络爬虫.pdf

Python编程初学者指南.pdf

基于Python的股票定向爬虫实现.pdf

python爬虫详解.pdf

Python爬虫实战案例教程.pdf

python爬虫新浪微博的爬虫源码.zip

电影天堂上的Python爬虫源码.zip

Python爬虫开发与项目实战.pdf

基于Python的新浪微博爬虫研究.pdf

Python3-廖雪峰.rar

Python爬虫总结 (3).pdf

用Python写网络爬虫.pdf

基于python的网络爬虫设计.doc

Google Chrome浏览器ChromeDriver驱动下载(Chrome版本：131.0.6778.86)win64

yolov11源码+yolov11n、s、m.pt文件整合8.3.20版本

《点燃我温暖你》中李峋的同款爱心代码

最新资源