没有合适的资源?快使用搜索试试~ 我知道了~
资源详情
资源评论
资源推荐
版权所有 张玉帅 Python 网络爬虫
第一周:网路爬虫之规则
单元 1:Requests 库入门
1.Requests 库综述
表 1.1 Requests 库的 7 个主要方法
方法
说明
request() 构造一个请求,支撑以下各方法的基础方法
get() 获取 HTML 网页的主要方法,对应于 HTTP 的 GET
head() 获取 HTML 网页头的主要方法,对应于 HTTP 的 HEAD
post() 向 HTML 网页提交 POST 请求的方法,对应于 HTTP 的 POST
put() 向 HTML 网页提交 PUT 请求的方法,对应于 HTTP 的 PUT
patch() 向 HTML 网页提交局部修改请求,对应于 HTTP 的 PATCH
delete() 向 HTML 页面提交删除请求,对应于 HTTP 的 DELETE
2.Requests 库的 get()方法
最简单的获取网址的方式是:
r= requests.get("http://www.yushuai.me")
这之中,requests 是构造了一个向服务器请求资源的 Request 对象,r 是返回一个包含
服务器资源的 Response 对象。get 完全的使用方法是:
requests.get(url,params=None,**kwargs)
其中,url 是拟获取页面的 url 链接;params 是 url 中的额外参数,字典或字节流格式,
可选;**kwargs 是 13 个控制参数。
表 1.2 Response 对象的属性
方法 说明
r.status_code HTTP 请求的返回状态。200 表示连接成功,404 表示失败。
r.text HTTP 响应内容的字符串形式,即 url 对应的页面内容
r.encoding
从 HTTP header 中猜测的响应内容编码方式
r.apparent_encoding 从内容中分析出的响应内容编码方式(备用编码方式)
r.content HTTP 响应内容的二进制形式
注意:
r.encoding:如果 header 中不存在 charset,则认为编码为 ISO-8859-1,所以 header 中编
码不一定正确。
r.apparent_encoding:根据网页内容分析出的编码方式。
2.爬取网页的通用代码框架
表 1.3 Requests 库的异常
异常 说明
requests.ConnectionError 网络连接错误异常,如 DNS 查询失败、拒绝连接等
requests.HTTPError HTTP 错误异常
requests.URLRequired URL 缺失异常
requests.TooManyRedirects 超过最大重定向次数,产生重定向异常
Friday永不为奴
- 粉丝: 12
- 资源: 317
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0