Python爬虫基础入门资源-CSDN文库

142 浏览量 2020-12-22 01:53:39 上传评论收藏 133KB PDF 举报

一、Requests库的7个主要方法方法说明 requests.request() 构造一个请求，支撑一下各方法的基础方法 requests.get() 获取HTML网页的主要方法，对应于HTTP的GET requests.head() 获取HTML网页头信息的方法，对应于HTTP的HEAD requests.post() 向HTML网页提交POST请求的方法，对应于HTTP的POST requests.put() 向HTML网页提交PUT请求的方法，对应于HTTP的PUT requests.pathch() 向HTML网页提交局部修改请求，对应于HTTP Python爬虫基础入门主要涉及的是使用Python进行网络数据抓取的基本知识，特别是 Requests 库的使用，这是Python中广泛用于发送HTTP请求的库。我们首先来看看Requests库的7个主要方法： 1. `requests.request()`：这是一个基础方法，用于构造各种HTTP请求。你可以通过这个方法调用其他的HTTP方法，如GET、POST等，并可以设置一些参数。 2. `requests.get()`：这是最常用的HTTP请求方法，用于获取网页的HTML内容。当你只需要读取网页信息而不需提交任何数据时，通常使用GET请求。 3. `requests.head()`：这个方法用于获取网页的头部信息，例如HTTP头，不返回网页的主体内容，这对于检查链接是否有效或者获取文件大小很有用。 4. `requests.post()`：用于向网页发送POST请求，通常用于提交表单数据或进行登录操作。POST请求会将数据包含在请求体中发送给服务器。 5. `requests.put()`：对应HTTP的PUT方法，用于替换服务器上指定URL的资源。如果资源不存在，PUT会创建一个新的资源。 6. `requests.patch()`：使用PATCH方法，可以局部更新已存在的资源，只修改需要修改的部分，而不是整个资源。 7. `requests.delete()`：用于删除指定URL的资源，对应HTTP的DELETE方法。了解了这些方法之后，我们还要理解HTTP协议的一些基本概念。HTTP（超文本传输协议）是一个无状态的、基于请求与响应模型的应用层协议。这意味着每次请求都是独立的，服务器不会记住前一次请求的状态。HTTP使用URL（统一资源定位符）来定位网络资源，包括主机名、端口号和资源路径。 HTTP协议提供了几种操作资源的方法： - GET：请求获取指定URL的资源。 - HEAD：类似于GET，但只返回响应头，不返回资源内容。 - POST：向指定URL提交数据，通常用于表单提交或数据创建。 - PUT：替换指定URL的资源，如果资源不存在则创建。 - PATCH：部分更新指定URL的资源，只修改需要更新的部分。 - DELETE：删除指定URL的资源。在实际的Python爬虫编程中，通常会遇到异常处理，如`requests.ConnectionError`、`requests.HTTPError`等。当网络连接出现问题或者HTTP请求返回非200状态码时，我们需要捕获并处理这些异常，以确保爬虫的稳定运行。以下是一个简单的爬虫代码框架示例，展示了如何使用Requests库获取网页内容并处理异常： ```python import requests def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() # 如果状态不是200，引发HTTPError异常 r.encoding = r.apparent_encoding return r.text except: return '产生异常' if __name__ == '__main__': url = 'http://www.baidu.com' print(getHTMLText(url)) ``` 在这个例子中，`getHTMLText`函数尝试获取指定URL的HTML文本。如果请求过程中发生异常，它会返回一个错误提示字符串。了解了这些基础知识后，你就可以开始构建简单的Python爬虫，抓取和解析HTML网页内容了。在实际应用中，你可能还需要学习如何处理反爬机制，如使用代理、设置User-Agent、处理验证码等，以及数据解析库如BeautifulSoup或lxml的使用，这些都是Python爬虫开发中不可或缺的技能。

资源推荐

资源详情

资源评论

Python爬虫基础入门爬虫基础入门

一、一、Requests库的库的7个主要方法个主要方法

方法方法说明说明

requests.request() 构造一个请求，支撑一下各方法的基础方法

requests.get() 获取HTML网页的主要方法，对应于HTTP的GET

requests.head() 获取HTML网页头信息的方法，对应于HTTP的HEAD

requests.post() 向HTML网页提交POST请求的方法，对应于HTTP的POST

requests.put() 向HTML网页提交PUT请求的方法，对应于HTTP的PUT

requests.pathch() 向HTML网页提交局部修改请求，对应于HTTP的PATCH

requests.delete() 向HTML页面提交删除请求，对应于HTTP的DELETE

1.requests.get

r = requests.get(url)

返回一个包含服务器资源的Response对象，包含爬虫返回的全部内容包含爬虫返回的全部内容

构造一个向服务器请求资源的Request对象

requests.get(url,params=None,**kwargs)

url:拟获取网页的url链接

params:url中的额外参数，字典或字节流格式，可选

**kwargs:12个控制访问的参数

2.Response对象的属性对象的属性

属性属性说明说明

r.status_code HTTP请求的返回状态，200表示连接成功，404表示失败

r.text HTTP响应内容的字符串形式，即，url对应的页面内容

r.encoding 从HTTP header中猜测的响应内容编码方式

r.apparent_encoding 从内容中分析出的响应内容编码方式（备选编码方式）

r.content HTTP响应的二进制形式

r.encoding:如果header中不存在charset，则认为编码为ISO-8859-1

r.apparent_encoding:根据网页内容分析出的编码方式

3.理解理解Requests库的异常库的异常

异常异常说明说明

requests.ConnectionError 网络连接错误异常，如DNS查询失败、拒绝连接等

requests.HTTPError HTTP错误异常

requests.TooManyRedirects 超过最大重定向次数，产生重定向异常

requests.ConnectTimeout 连接远程服务器时异常

requests.URLRequired URL缺失异常

Requests.Timeout 请求URL超时，产生超时异常

异常异常说明说明

r.raise_for_status 如果不是200，产生异常requests.HTTPError

爬取网页的通用代码框架爬取网页的通用代码框架

import requests

def getHTMLText(url):

try:

r = requests.get(url,timeout=30)

r.raise_for_status() # 如果状态不是200，引发HTTPError异常

r.encoding = r.apparent_encoding

return r.text

except:

return '产生异常'

if __name__ == '__main__':

url = 'http://www.baidu.com'

print(getHTMLText(url))

二、二、HTTP协议协议

HTTP，Hypertext Transfer Protocol,超文本传输协议。

HTTP是一个基于”请求与响应“模式的、无状态的应用层协议。

无状态：第一次请求与第二次请求无关联

HTTP协议采用URL作为定位网络资源的标识。

URL格式 http://host[:port][path]

host:合法的Internet主机域名或IP地址

port:端口号，缺省端口为80

path:请求资源的路径

HTTP URL的理解的理解

URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源。

1.HTTP协议对资源的操作协议对资源的操作

方法方法说明说明

GET 请求获取URL位置的资源

HEAD 请求获取URL位置资源的响应消息报告，即获得该资源的头部信息

POST 请求向URL位置的资源后附新的数据

PUT 请求向URL位置存储一个资源，覆盖原URL

PATCH 请求局部更新URL位置的资源，即改变该处资源的部分内容

DELETE 请求删除URL位置存储的资源

2.理解理解PATCH和和PUT的区别的区别

假设URL位置有一组数据UserInfo,包括UserID、UserName等20个字段。

需求：用户修改了UserName,其他不变。

采用PATCH,仅向URL提交UserName的局部更新请求。

采用PUT，必须将所有20个字段一并提交到URL，未提交字段被删除。

PATCH的最主要好处：节省网络带宽

三、三、Requests库的库的7个主要方法解析个主要方法解析

1.requests.request()

requests.request(method,url,**kwargs)

method：请求方式。

‘GET’、‘HEAD’、‘POST’、‘PUT’、‘PATCH’、‘delete’、‘OPTIONS’

**kwargs:控制访问的参数，均为可选项。

params:字典或字节序列，作为参数增加到url中。

data：字典、字节序列对象，重点是向服务器提交资源时使用。

json:JSON格式的数据，作为request的内容。

headers:字典，HTTP定制头。

cookies:字典或CookieJar,Request中的cookie。

auth:元祖，支持HTTP认证功能。

files:字典类型，传输文件。

timeout:设定超时时间，秒为单位。

proxies:字典类型，设定访问代理服务器，可以增加登录认证。

allow_redirects:True/False,默认为True，重定向开关。

stream:True/False,默认为True，获取内容立即下载开关。

verify:True/False,默认为True，认证SSL证书开关。

cert:本地SSL证书路径。

四、四、Beautiful Soup库使用库使用

1.BeautifulSoup 基本使用基本使用

from bs4 import BeautifulSoup

soup = BeautifulSoup('

剩余11页未读，继续阅读

评论收藏

内容反馈

weixin_38684892

粉丝: 10
资源: 936

Python爬虫基础入门

python爬虫基本知识

python基础到爬虫

python爬虫--新手

简单的python爬虫

Python基础入门学习

python基础教程head-Python爬虫基础入门，这是我看到最简单易懂的教程.pdf

python爬虫从入门到精通（模块）

python爬虫基础入门 — python爬虫requests库使用操作全解

Python爬虫入门教程：超级简单的Python爬虫教程.pdf

python爬虫零基础入门.mp4

PYTHON基础

python爬虫实例，快速入门

简单扼要了解python爬虫

python爬虫

零基础Python爬虫从入门到精通教程[视频课程].txt打包整理.zip

python爬虫基础课件.pdf

python爬虫 入门 基础 100道题

Python爬虫基础教程

python爬虫基础.zip

python 爬虫

一个适合入门的简单python爬虫代码，清晰好理解

Python爬虫基础知识

python爬虫入门课程pdf

Python爬虫入门.zip

Python爬虫入门教程

Python爬虫零基础入门必会项目实例

最新资源

python爬虫入门基础 100道题