【免费】第一讲整理1资源-CSDN文库

需积分: 0 169 浏览量 2022-08-04 00:41:03 上传评论收藏 409KB PDF 举报

资源详情

资源评论

资源推荐

版权所有张玉帅 Python 网络爬虫

第一周：网路爬虫之规则

单元 1：Requests 库入门

1.Requests 库综述

表 1.1 Requests 库的 7 个主要方法

方法

说明

request() 构造一个请求，支撑以下各方法的基础方法

get() 获取 HTML 网页的主要方法，对应于 HTTP 的 GET

head() 获取 HTML 网页头的主要方法，对应于 HTTP 的 HEAD

post() 向 HTML 网页提交 POST 请求的方法，对应于 HTTP 的 POST

put() 向 HTML 网页提交 PUT 请求的方法，对应于 HTTP 的 PUT

patch() 向 HTML 网页提交局部修改请求，对应于 HTTP 的 PATCH

delete() 向 HTML 页面提交删除请求，对应于 HTTP 的 DELETE

2.Requests 库的 get()方法

最简单的获取网址的方式是：

r= requests.get("http://www.yushuai.me")

这之中，requests 是构造了一个向服务器请求资源的 Request 对象，r 是返回一个包含

服务器资源的 Response 对象。get 完全的使用方法是：

requests.get(url,params=None,**kwargs)

其中，url 是拟获取页面的 url 链接；params 是 url 中的额外参数，字典或字节流格式，

可选；**kwargs 是 13 个控制参数。

表 1.2 Response 对象的属性

方法说明

r.status_code HTTP 请求的返回状态。200 表示连接成功，404 表示失败。

r.text HTTP 响应内容的字符串形式，即 url 对应的页面内容

r.encoding

从 HTTP header 中猜测的响应内容编码方式

r.apparent_encoding 从内容中分析出的响应内容编码方式（备用编码方式）

r.content HTTP 响应内容的二进制形式

注意：

r.encoding：如果 header 中不存在 charset，则认为编码为 ISO-8859-1，所以 header 中编

码不一定正确。

r.apparent_encoding：根据网页内容分析出的编码方式。

2.爬取网页的通用代码框架

表 1.3 Requests 库的异常

异常说明

requests.ConnectionError 网络连接错误异常，如 DNS 查询失败、拒绝连接等

requests.HTTPError HTTP 错误异常

requests.URLRequired URL 缺失异常

requests.TooManyRedirects 超过最大重定向次数，产生重定向异常

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余4页未读，立即下载

评论0

内容反馈

Friday永不为奴

粉丝: 12
资源: 317

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip