Pythonurllib、urllib2、httplib抓取网页代码实例资源-CSDN文库

98 浏览量 2020-09-22 02:39:11 上传评论收藏 37KB PDF 举报

Python中的`urllib`, `urllib2`, 和`httplib`是用于网络数据请求和处理的库，它们在Web开发和爬虫项目中扮演着重要角色。这些库可以帮助开发者发送HTTP请求，获取响应，处理cookies，使用代理，以及处理重定向等问题。 1. **urllib**: 是Python标准库中最基础的URL处理模块，它提供了打开URL的基本功能。例如，`urllib.urlopen(url)`可以直接打开一个URL并读取其内容。在上述代码中，`use_urllib2()`函数就展示了这一点。 2. **urllib2**: 建立在`urllib`之上，提供了更强大的功能，如POST请求，错误处理，以及通过代理服务器访问。`get_request()`函数使用`urllib2.Request`来创建一个请求对象，可以设置请求参数，请求头，甚至自定义HTTP方法。`urllib2.urlopen(request)`则用于发送请求并获取响应。 3. **httplib**: 主要处理HTTP和HTTPS协议，它是低级别的网络通信接口。在高级的HTTP操作中，如自定义HTTP头部或者POST请求，通常使用`urllib2`或`requests`库，而不是直接使用`httplib`。 4. **HTTP请求与响应**: 在`urllib2`中，`Request`对象表示HTTP请求，而`urlopen`函数返回一个响应对象，可以读取响应内容，如`page.read()`。`HTTPError`和`URLError`异常用于处理HTTP错误和URL访问错误。 5. **代理**: `ProxyHandler`类允许我们通过代理服务器进行请求。在`use_proxy()`函数中，如果`enable_proxy`为真，就会使用代理服务器；否则，不使用代理。`urllib2.build_opener()`创建一个OpenerDirector，`install_opener()`将这个OpenerDirector设置为全局默认，使得后续的`urlopen`调用都会使用这个Opener。 6. **Cookies**和**Session管理**: 虽然示例代码没有涉及，但`urllib2`可以通过`CookieJar`和`HTTPCookieProcessor`来处理cookies，实现会话管理。 7. **超时设置**: 通过`urllib2.Request`的`timeout`参数或者`socket.setdefaulttimeout()`函数，可以设置请求的超时时间，避免因长时间等待响应而导致程序阻塞。 8. **HTTP请求方法**：`Request`对象可以通过`get_method()`方法来设置HTTP方法，如GET, POST, PUT等。以上就是Python中`urllib`, `urllib2`, 和`httplib`用于抓取网页的一些基本知识点。这些库的使用能够帮助开发者构建复杂的网络请求逻辑，进行数据抓取和交互。需要注意的是，进行网络请求时应遵守网站的robots.txt规则，尊重网站的版权，合法合规地使用网络资源。

资源推荐

资源评论