没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
一、HTTP 协议
1. 概念:是一个基于“请求与响应”模式的、无状态的应用层协议
2. HTTP 协议采用 URL 作为定位网络资源的标识,URL 格式:http://host[:port][path]
host:合法的 Internet 主机域名或 IP 地址
port:端口号,缺省端口为 80
path:请求资源的路径
3. HTTP URL 的理解:URL 是通过 HTTP 协议存取资源的 Internet 路径,一个 URL 对应一个
数据资源
4. 对资源操作:通过 URL 和命令管理资源,操作独立状态,网络通道及服务器成为了黑盒
子
5. 理解 PATCH 和 PUT 的区别
假设 URL 位置有一组数据 UserInfo,包括 userID、 UserName 等 20 个字段
需求:用户修改了 userName,其他不变
采用 PATCH,仅向 URL 提交 UserName 的局部更新请求
采用 PUT,必须将所有 20 个字段一并提交到 URL,未提交字段被删除
PATCH 的最主要好处:节省网络带宽
6. Requests 库的 7 个主要方法
Reqests.request()
构造一个请求,其是支撑一下方法的基础方法
Reqests.get()
获取 HTML 网页的主要方法,对应于 HTTP 的 GET
Reqests.head()
获取 HTML 网页头信息的方法,对应于 HTTP 的 HEAD
Reqests.post()
向 HTML 网页提交 POST 请求,对应于 HTTP 的 POST
Reqests.put()
向 HTML 网页提交 PUT 请求,对应于 HTTP 的 PUT
Reqests.patch()
向 HTML 网页提交局部修改请求,对应于 HTTP 的 PATCH
Reqests.delete()
向 HTML 网页提交删除请求,相当于 HTTP 的 DELETE
7. requests.request(method,url,**kwargs)
method:请求方式,对应 get/put/post 等 7 种
url:拟获取页面的 url 链接
**kwargs:控制访问的参数,共 13 个
Params:字典或字节序列,作为参数增加到 url 中
Data:字典、字节序列或文件对象,作为 Request 的内容
Json:JSON 格式的数据,作为 Request 的内容
Headers:字典,HTTP 定制头
Cookies:字典或 CookieJar,Request 中的 cookie
二、网络爬虫引发的问题
1. 根据网络爬虫的尺寸分类
以爬取网页、玩转网页为主
的一类爬虫,
特点:小规模,数据量小爬取
速度不敏感
使用 Requests 库
以爬取网站、爬取系列网站
为主的一类爬虫
特点:中规模,数据规模较大
爬取速度敏感
使用 Scrapy 库
以爬取全网为主的一类爬虫
大规模,搜索引擎爬取速度关
键
定制开发
2. 网络爬虫的“骚扰”
(1) 概念:受限于便携水平和目的,网络爬虫将会为 web 服务器带来巨大的资源开销
(2) 法律风险:服务器上的数据有产权归属、网络爬虫获取数据后牟利将带来法律风险
资源评论
m0_69962216
- 粉丝: 0
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功