【免费】HTTP协议及网络爬虫资源-CSDN文库

需积分: 0 48 浏览量 2023-10-11 10:39:35 上传评论收藏 15KB DOCX 举报

资源推荐

资源详情

资源评论

一、HTTP 协议

1. 概念：是一个基于“请求与响应”模式的、无状态的应用层协议

2. HTTP 协议采用 URL 作为定位网络资源的标识，URL 格式：http://host[:port][path]

host：合法的 Internet 主机域名或 IP 地址

port：端口号，缺省端口为 80

path：请求资源的路径

3. HTTP URL 的理解：URL 是通过 HTTP 协议存取资源的 Internet 路径，一个 URL 对应一个

数据资源

4. 对资源操作：通过 URL 和命令管理资源，操作独立状态，网络通道及服务器成为了黑盒

子

5. 理解 PATCH 和 PUT 的区别

假设 URL 位置有一组数据 UserInfo,包括 userID、 UserName 等 20 个字段

需求:用户修改了 userName,其他不变

 采用 PATCH，仅向 URL 提交 UserName 的局部更新请求

 采用 PUT，必须将所有 20 个字段一并提交到 URL，未提交字段被删除

PATCH 的最主要好处：节省网络带宽

6. Requests 库的 7 个主要方法

Reqests.request()

构造一个请求，其是支撑一下方法的基础方法

Reqests.get()

获取 HTML 网页的主要方法，对应于 HTTP 的 GET

Reqests.head()

获取 HTML 网页头信息的方法，对应于 HTTP 的 HEAD

Reqests.post()

向 HTML 网页提交 POST 请求，对应于 HTTP 的 POST

Reqests.put()

向 HTML 网页提交 PUT 请求，对应于 HTTP 的 PUT

Reqests.patch()

向 HTML 网页提交局部修改请求，对应于 HTTP 的 PATCH

Reqests.delete()

向 HTML 网页提交删除请求，相当于 HTTP 的 DELETE

7. requests.request(method,url,**kwargs)

 method：请求方式，对应 get/put/post 等 7 种

 url：拟获取页面的 url 链接

 **kwargs：控制访问的参数，共 13 个

 Params：字典或字节序列，作为参数增加到 url 中

 Data：字典、字节序列或文件对象，作为 Request 的内容

 Json：JSON 格式的数据，作为 Request 的内容

 Headers：字典，HTTP 定制头

 Cookies：字典或 CookieJar，Request 中的 cookie

二、网络爬虫引发的问题

1. 根据网络爬虫的尺寸分类

以爬取网页、玩转网页为主

的一类爬虫，

特点：小规模，数据量小爬取

速度不敏感

使用 Requests 库

以爬取网站、爬取系列网站

为主的一类爬虫

特点：中规模，数据规模较大

爬取速度敏感

使用 Scrapy 库

以爬取全网为主的一类爬虫

大规模，搜索引擎爬取速度关

键

定制开发

2. 网络爬虫的“骚扰”

(1) 概念：受限于便携水平和目的，网络爬虫将会为 web 服务器带来巨大的资源开销

(2) 法律风险：服务器上的数据有产权归属、网络爬虫获取数据后牟利将带来法律风险

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余1页未读，立即下载

内容反馈

m0_69962216

粉丝: 0
资源: 1

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip