python爬虫入门教程--快速理解HTTP协议（一）_python网络爬虫模块协议头资源-CSDN文库

57 浏览量 2020-09-21 07:42:31 上传评论收藏 131KB PDF 举报

资源详情

资源评论

python爬虫入门教程爬虫入门教程--快速理解快速理解HTTP协议（一）协议（一）

http协议是互联网里面最重要，最基础的协议之一，我们的爬虫需要经常和http协议打交道。下面这篇文章主要

给大家介绍了关于python爬虫入门之快速理解HTTP协议的相关资料，文中介绍的非常详细，需要的朋友可以参

考借鉴，下面来一起看看吧。

前言前言

爬虫的基本原理是模拟浏览器进行 HTTP 请求，理解 HTTP 协议是写爬虫的必备基础，招聘网站的爬虫岗位也赫然写着熟练

掌握HTTP协议规范，写爬虫还不得不先从HTTP协议开始讲起

HTTP协议是什么？协议是什么？

你浏览的每一个网页都是基于 HTTP 协议呈现的，HTTP 协议是互联网应用中，客户端（浏览器）与服务器之间进行数据通信

的一种协议。协议中规定了客户端应该按照什么格式给服务器发送请求，同时也约定了服务端返回的响应结果应该是什么格

式。

只要大家都按照协议规定方式发起请求和返回响应结果，任何人都可以基于HTTP协议实现自己的Web客户端（浏览器、爬

虫）和Web服务器（Nginx、Apache等）。

HTTP 协议本身是非常简单的。它规定，只能由客户端主动发起请求，服务器接收请求处理后返回响应结果，同时 HTTP 是一

种无状态的协议，协议本身不记录客户端的历史请求记录。

HTTP 协议是如何规定请求格式和响应格式的呢？换言之，客户端按照什么格式才能正确发起 HTTP 请求呢？服务端按照什么

格式返回响应结果客户端才能正确解析？

HTTP 请求请求

HTTP 请求由3部分组成，分别是请求行、请求首部、请求体，首部和请求体是可选的，并不是每个请求都需要的。

请求行请求行

请求行是每个请求必不可少的部分，它由3部分组成，分别是请求方法（method)、请求URL（URI）、HTTP协议版本，以空

格隔开。

HTTP协议中最常用的请求方法有：GET、POST、PUT、DELETE。GET 方法用于从服务器获取资源，90%的爬虫都是基于

GET请求抓取数据。

请求 URL 是指资源所在服务器的路径地址，比如上图的例子表示客户端想获取 index.html 这个资源，它的路径在服务器

foofish.net 的根目录（/）下面。

请求首部请求首部

因为请求行所携带的信息量非常有限，以至于客户端还有很多想向服务器要说的事情不得不放在请求首部（Header），请求

首部用于给服务器提供一些额外的信息，比如 User-Agent 用来表明客户端的身份，让服务器知道你是来自浏览器的请求还是

爬虫，是来自 Chrome 浏览器还是 FireFox。HTTP/1.1 规定了47种首部字段类型。HTTP首部字段的格式很像 Python 中的字

典类型，由键值对组成，中间用冒号隔开。比如：

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余2页未读，立即下载

评论收藏

内容反馈

python爬虫入门教程--快速理解HTTP协议（一）

评论0

最新资源

python爬虫入门教程--快速理解HTTP协议（一）

评论0

最新资源

相关推荐

python http服务器搭建

Python实现HTTP协议下的文件下载方法总结

Python语言实现http服务器

python爬虫入门教程–快速理解HTTP协议（一）

python爬虫HTTP协议剖析

python爬虫入门教程–优雅的HTTP库requests（二）

python爬虫入门教程--优雅的HTTP库requests（二）

Python爬虫入门教程.docx

python爬虫学习笔记-scrapy框架(1)

3-python快速入门

Python爬虫入门教程 90-100 凌晨5点的CSDN自动签到器，用Python爬虫干点闲事.zip

Python爬虫入门案例-爬取电影数据.zip

Python爬虫实例教程-代码.rar

python爬虫-----爬取腾讯网上的图片

10个Python爬虫入门实例-new.docx

实用文档之Python网络爬虫实习报告-python实习报告.docx

python爬虫-python-spider.zip

爬虫python入门-20-体验继承.ev4.rar

爬虫python入门-21-单继承.ev4.rar

Python爬虫入门教程

实用文档之Python网络爬虫实习报告-python实习报告.pdf

基于Python+pytorch的图像处理+附完整代码图像处理，能够轻松实现图像的读取、显示、裁剪等还有机器学习等操作

python大作业 含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar

《点燃我温暖你》中李峋的同款爱心代码

Python金融量化的高级库：TA-Lib-0.4.24（包含python3.7、3.8、3.9、3.10的32位和64位版本）

第十五届蓝桥杯大赛软件赛省赛-PythonB组题目

大麦网抢票脚本【Python脚本】

python大作业含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar