没有合适的资源?快使用搜索试试~ 我知道了~
Python之如何学好爬虫原理.pdf
需积分: 5 0 下载量 124 浏览量
2024-11-08
09:33:02
上传
评论
收藏 3.65MB PDF 举报
温馨提示
Python之如何学好爬虫原理
资源推荐
资源详情
资源评论
Python爬虫基础及运用
爬虫的基本原理
一、爬虫概述
简单来说,爬虫就是获取网页并提取和保存信息的自动化程序,下面概要介绍一
下。
i . 获取网页
爬虫首先要做的工作就是获取网页,这里就是获取网页的源代码。源代码里包含
了网页的部分有用信息,所以只要把源代码获取下来,就可以从中提取想要的信
息了。
前面讲了请求和响应的概念,向网站的服务器发送一个请求,返回的响应体便是
网页源代码。所 以 ,最关键的部分就是构造一个请求并发送给服务器,然后接收
到响应并将其解析出来,那么这个流程怎样实现呢?总不能手工去截取网页源码
吧 ?
不用担心Python提供了许多库来帮助我们实现这个操作,如 urllib. requests
等。我们可以用这些库来帮助我们实现HTTP请求操作,请求和响应都可以用
类库提供的数据结构来表示,得到响应之后只需要解析数据结构中的Body部
分即可,即得到网页的源代码,这样我们可以用程序来实现获取网页的过程了。
2.提取信息
获取网页源代码后,接下来就是分析网页源代码,从中提取我们想要的数据。首
先 ,最通用的方法便是采用正则表达式提取,这是一个万能的方法,但是在构造
正则表达式时比较复杂且容易出错。另 外 ,由于网页的结构有一定的规则,所以
还有一些根据网页节点属性、CSS选择器或XPath来提取网页信息的库,如
Beautiful Soup、pyquery. Ixm l等。使用这些库,我们可以高效快速地从中
提取网页信息、,如节点的属性、文本值等。
提取信息是爬虫非常重要的部分,它可以使杂乱的数据变得条理清晰,以便我们
后续处理和分析数据。
» 保存数据
提取信息后,我们一般会将提取到的数据保存到某处以便后续使用。这里保存形
式有多种多样,如可以简单保存为TX T文本或JSON文 本 ,也可以保存到数
据 库 ,如 MySQL和 MongoDB等 ,也可保存至远程服务器,如 借 助 SFTP进
行操作等.
4 .自动化程序
说到自动化程序,意思是说爬虫可以代替人来完成这些操作。首 先 ,我们手工当
然可以提取这些信息,但是当量特别大或者想快速获取大量数据的话,肯定还是
要借助程序。爬虫就是代替我们来完成这份爬取工作的自动化程序,它可以在抓
取过程中进行各种异常处理、错误重试等操作,确保爬取持续高效地运行。
二、能抓怎样的数据
在网页中我们能看到各种各样的信息,最常见的便是常规网页,它们对应着
H T M L 代 码 ,而 最常抓取的 便是 H T M L 源代码,
另 外 ,可能有些网页返回的不是H T M L 代 码 ,而 是 一 个 JS O N 字 符 串 (其中
A P I接口大多采用这样的形式),这种格式的数据方便传输和解析,它们同样
可 以 抓 取 ,而且数据提取更加方便。
此 外 ,我们还可以看到各种二进制数据,如图片、视频和音频等。利 用 爬 虫 ,我
们可以将这些二进制数据抓取下来,然后保存成对应的文件名。
另 外 ,还可以看到各种扩展名的文件,如 CSS. JavaScript和配置文件等,这
些其实也是最普通的文件,只要在浏览器里面可以访问到,就可以将其抓取下来。
上述内容其实都对应各自的URL ,是 基 于 HTTP或 HTTPS协 议 的 ,只要是这
种 数 据 ,爬虫都可以抓取。
三、JavaScript渲染页面
有 时 候
,
我 们 在 用 u rllib 或 requests抓取 网页时 ,得到的源代码实际和浏览
器中看到的不一样。
剩余14页未读,继续阅读
资源评论
无敌开心
- 粉丝: 1936
- 资源: 10万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功