Python爬虫实战：数据采集、处理与分析_python爬虫资源-CSDN文库

5星 · 超过95%的资源需积分: 5 34 浏览量 2023-03-30 08:46:13 上传评论 6 收藏 430KB PDF 举报

资源推荐

资源详情

资源评论

Python爬⾍实战

⼀些必要的第三⽅库

beautifulsoup4

bs4

lxml

requests

request库的⽤法

1.⽤于构建⼀个请求 request.Request

原型：request = urllib.request.Request(url = url,data = data,headers = headers,method = ‘POST’)

实例：

rq = request.Request(url, headers=header)

返回类型为 urllib.request.Request

2.对⽬标url的访问函数 request.urlopen()

原型：request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)　

实例：

resp = request.urlopen(rq)

但是请求后并不是字符类型，是 http.client.HTTPResponse 类型

3.对 resp 进⾏解码

result = resp.read().decode('utf-8')

4.result 得到⽹页源码，通过 decode() 解码完成后为 str 类型。

如果需要使⽤ BeautifulSoup 对⽹页进⾏信息提取，需要使⽤

soup = BeautifulSoup(result, 'lxml')

将 str 类型的返回结果转化成 BeautifulSoup 对象。

另：request.get（）请求

params 接收⼀个字典或者字符串的查询参数，字典类型⾃动转换为url编码，不需要urlencode()

实例：

response = requests.get(url,headers=headers,params=kw)

XPath 解析⽅法

1.基本语法

表达式

/

//

nodename

.

两点

@

说明

从根节点选取

从⽂档中选择匹配当前节点的节点，⽽不考虑它们的位置

选取此节点的所有⼦节点

选取当前节点

选取当前节点的⽗亲节点

选取属性

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余8页未读，立即下载

内容反馈

彥爷

2023-06-08

在实践过程中，我觉得这份资料缺乏对反爬虫的介绍。
咖啡碎冰冰

2023-06-08

这份资料帮助我搭建了自己的数据爬虫系统，非常感谢对我的帮助。
蒋寻

2023-06-08

学习这个实战资料后，我发布了第一个爬虫项目，感觉非常有成就感！
袁大岛

2023-06-08

资料提供的案例有点过于简单，建议增加一些更复杂的示例。
断脚的鸟

2023-06-08

这份资料收集了很多爬虫的案例，是一个非常好的学习材料。

前往

页

funfan0517

粉丝: 6507
资源: 24

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip