python爬虫开发之urllib模块详细使用方法与实例全解资源-CSDN文库

75 浏览量 2020-09-17 18:18:18 上传评论收藏 104KB PDF 举报

Python的urllib模块是进行网络数据获取的重要工具，尤其在Python爬虫开发中扮演着核心角色。它在Python 2.x和3.x中有所变化，但核心功能保持一致，为开发者提供了网页请求、URL解析、代理和cookie设置、异常处理以及robots.txt解析等功能。 **1. 网页请求（urllib.request）** 在Python 2.x中，这部分功能由`urllib2`模块提供，而在Python 3.x中，被整合到`urllib.request`模块。其中，`urlopen()`函数是最常用的方法，用于发送HTTP请求。在Python 3.x中，调用方式为： ```python import urllib.request r = urllib.request.urlopen(url, data, timeout) ``` - `url`：指定要访问的URL地址。 - `data`：如果需要发送POST数据，应将参数转化为字节流格式的bytes类型。 - `timeout`：设置超时时间，单位为秒。 **2. URL解析（urllib.parse）** 在Python 2.x中，`urlparse`模块用于URL解析，而Python 3.x中，这个功能被整合到`urllib.parse`模块。例如，你可以使用`urlparse.urljoin()`来组合URL，`urlparse.urlsplit()`来分解URL，或者`urlparse.urlencode()`对查询参数进行编码。 **3. 代理和cookie设置** 虽然urllib库本身并不直接支持代理和cookie的设置，但你可以通过自定义opener或handler来实现。`urllib.request.ProxyHandler`用于设置代理，`urllib.request.HTTPCookieProcessor`用于处理cookie。 **4. 异常处理（urllib.error）** 当网络请求发生错误时，如超时、连接失败等，urllib.error模块提供了一系列的异常类，如`URLError`和`HTTPError`，可以捕获并处理这些错误。 **5. robots.txt解析（urllib.robotparser）** `urllib.robotparser`模块可以解析网站的robots.txt文件，以遵循网站的抓取规则，避免对网站造成不必要的负担。 **6. POST请求示例** 在发送POST请求时，你需要先将数据编码成URL编码格式，然后传递给`urlopen()`函数。下面是一个简单的示例： ```python import urllib.request import urllib.parse url = 'https://example.com/login' post_data = { 'username': 'your_username', 'password': 'your_password' } postdata = urllib.parse.urlencode(post_data).encode('utf-8') req = urllib.request.Request(url, postdata) response = urllib.request.urlopen(req) ``` 在这个例子中，我们构建了一个字典`post_data`，然后用`urllib.parse.urlencode()`将其编码为URL编码的字符串，并编码为UTF-8，最后作为`Request`对象的第二个参数传递给`urlopen()`。 Python的urllib模块提供了全面的网络请求功能，是爬虫开发的基础。掌握urllib的使用，能帮助开发者更好地理解和实现网络数据的抓取和处理。随着对urllib的理解加深，开发者可以进一步学习更高级的库，如requests，它提供了更为便捷和人性化的API，但urllib作为基础，是理解网络请求原理的必经之路。

资源推荐

资源详情

资源评论

python爬虫开发之爬虫开发之urllib模块详细使用方法与实例全解模块详细使用方法与实例全解

主要介绍了python爬虫开发之urllib模块详细使用方法与实例全解,需要的朋友可以参考下

爬虫所需要的功能，基本上在urllib中都能找到，学习这个标准库，可以更加深入的理解后面更加便利的requests库。

首先

在Pytho2.x中使用import urllib2——-对应的，在Python3.x中会使用import urllib.request，urllib.error

在Pytho2.x中使用import urllib——-对应的，在Python3.x中会使用import urllib.request，urllib.error，urllib.parse

在Pytho2.x中使用import urlparse——-对应的，在Python3.x中会使用import urllib.parse

在Pytho2.x中使用import urlopen——-对应的，在Python3.x中会使用import urllib.request.urlopen

在Pytho2.x中使用import urlencode——-对应的，在Python3.x中会使用import urllib.parse.urlencode

在Pytho2.x中使用import urllib.quote——-对应的，在Python3.x中会使用import urllib.request.quote

在Pytho2.x中使用cookielib.CookieJar——-对应的，在Python3.x中会使用http.CookieJar

在Pytho2.x中使用urllib2.Request——-对应的，在Python3.x中会使用urllib.request.Request

urllib是Python自带的标准库，无需安装，直接可以用。

urllib模块提供了如下功能：

网页请求(urllib.request)

URL解析(urllib.parse)

代理和cookie设置

异常处理(urllib.error)

robots.txt解析模块(urllib.robotparser)

urllib包中包中urllib.request模块模块

1、、urllib.request.urlopen

urlopen一般常用的有三个参数，它的参数如下：

r = urllib.requeset.urlopen(url,data,timeout)

url：链接格式：协议://主机名:[端口]/路径

data：附加参数必须是字节流编码格式的内容(bytes类型)，可通过bytes()函数转化，如果要传递这个参数，请求

方式就不再是GET方式请求，而是POST方式

timeout: 超时单位为秒

get请求请求

import urllib

r = urllib.urlopen('//www.jb51.net/')

datatLine = r.readline() #读取html页面的第一行

data=file.read() #读取全部

f=open("./1.html","wb") # 网页保存在本地

f.write(data)

f.close()

urlopen返回对象提供方法：

read() , readline() ,readlines() , fileno() , close() ：这些方法的使用方式与文件对象完全一样 info()：返回一个

httplib.HTTPMessage对象，表示远程服务器返回的头信息 getcode()：返回Http状态码。如果是http请求，200请求成功完

成;404网址未找到 geturl()：返回请求的url

urllib.quote(url)和urllib.quote_plus(url)，对关键字进行编码可使得urlopen能够识别

POST请求请求

import urllib.request

import urllib.parse

url = 'https://passport.jb51.net/user/signin?'

post = {

'username': 'xxx',

'password': 'xxxx'

}

postdata = urllib.parse.urlencode(post).encode('utf-8')

req = urllib.request.Request(url, postdata)

r = urllib.request.urlopen(req)

我们在进行注册、登录等操作时，会通过POST表单传递信息

这时，我们需要分析页面结构，构建表单数据post，使用urlencode()进行编码处理，返回字符串，再指定'utf-8'的编码格式，

这是因为POSTdata只能是bytes或者file object。最后通过Request()对象传递postdata，使用urlopen()发送请求。

2、、urllib.request.Request

urlopen()方法可以实现最基本请求的发起，但这几个简单的参数并不足以构建一个完整的请求，如果请求中需要加入

headers（请求头）等信息模拟浏览器，我们就可以利用更强大的Request类来构建一个请求。

import urllib.request

import urllib.parse

url = 'https://passport.jb51.net/user/signin?'

post = {

'username': 'xxx',

'password': 'xxxx'

}

postdata = urllib.parse.urlencode(post).encode('utf-8')

req = urllib.request.Request(url, postdata)

r = urllib.request.urlopen(req)

3、、urllib.request.BaseHandler

在上面的过程中，我们虽然可以构造Request ，但是一些更高级的操作，比如 Cookies处理，代理该怎样来设置？

接下来就需要更强大的工具 Handler 登场了基本的urlopen()函数不支持验证、cookie、代理或其他HTTP高级功能。要支持这

些功能，必须使用build_opener()函数来创建自己的自定义opener对象。

首先介绍下 urllib.request.BaseHandler ，它是所有其他 Handler 的父类，它提供了最基本的 Handler 的方法。

HTTPDefaultErrorHandler 用于处理HTTP响应错误，错误都会抛出 HTTPError 类型的异常。

HTTPRedirectHandler 用于处理重定向

HTTPCookieProcessor 用于处理 Cookie 。

ProxyHandler 用于设置代理，默认代理为空。

HTTPPasswordMgr用于管理密码，它维护了用户名密码的表。

HTTPBasicAuthHandler 用于管理认证，如果一个链接打开时需要认证，那么可以用它来解决认证问题。

代理服务器设置代理服务器设置

def use_proxy(proxy_addr,url):

import urllib.request

#构建代理

proxy=urllib.request.ProxyHandler({'http':proxy_addr})

# 构建opener对象

opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandler)

# 安装到全局

# urllib.request.install_opener(opener)

# data=urllib.request.urlopen(url).read().decode('utf8') 以全局方式打开

data=opener.open(url) # 直接用句柄方式打开

return data

proxy_addr='61.163.39.70:9999'

data=use_proxy(proxy_addr,'//www.jb51.net')

print(len(data))

## 异常处理以及日输出

opener通常是build_opener()创建的opener对象。

install_opener(opener) 安装opener作为urlopen()使用的全局URL opener

cookie的使用的使用

剩余6页未读，继续阅读

评论收藏

内容反馈

weixin_38529436

粉丝: 3
资源: 998

python爬虫开发之urllib模块详细使用方法与实例全解

Python使用urllib模块对URL网址中的中文编码与解码实例详解

使用Python的urllib和urllib2模块制作爬虫的实例教程

Python爬虫实例-urllib-request-parse等包的学习实例

python爬虫开发之使用python爬虫库requests，urllib与今日头条搜索功能爬取搜索内容实例

python利用urllib实现爬取京东网站商品图片的爬虫实例

python爬虫，爬取图片

python urllib爬虫模块使用解析

python+scrapy/urllib等爬虫示例

python3.7简单的爬虫实例详解

python爬虫实例——基于BeautifulSoup与urllib.request

零基础学习python及爬虫

Python项目开发实战_REST API模块urllib和json -系统间协作及使用外部服务_案例实例.pdf

python爬虫开发之Request模块从安装到详细使用方法与实例全解

python 20、爬虫 01-1_爬虫介绍、分类及用途、robots协议、urllib基本使用、re模块.mp4

pythonCrawler:python3网络爬虫笔记与实战原始码。记录python爬虫学习全程笔记，参考资料和常见错误，约40个爬取实例与思路解析，涵盖urllib，requests，bs4，jsonpath，re，pytesseract，PIL等常用库的使用

python爬虫开发之PyQuery模块详细使用方法与实例全解

Qt 5实现串口调试助手 （源工程文件、0积分下载）

【SystemVerilog】路科验证V2学习笔记（全600页）.pdf

AutoSAR标准协议4.2.2

光伏-储能并网系统仿真.rar

XCP协议的规范文档

GD32替换STM32注意事项.pdf

最新资源

Qt 5实现串口调试助手（源工程文件、0积分下载）