没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
# 爬虫
## 简单爬虫结构
![](./image/python.png)
## URL管理器 ![](./image/URL.png)
## URL实现方式 ![](image/URL_Realization.png)
## 这里是一个爬虫网页下载器 ### 网页下载器-urllib2 * urllib2下载网页方法1:最简洁方法 ![](./image/URL_download.png) * urllib2下载网页方法2:添加data、http、header ![](./image/URL_add.png) * urllib2下载网页方法3:添加特殊情景的处理器 ![](./image/URL_processor.png) **代码如下** ```python from urllib import request import http.cookiejar url = 'http://www.baidu.com' print('第一种方法:') response1 = request.urlopen(url) print(response1.getcode()) print(len(response1.read())) print('第二种方法') req = request.Request(url) req.add_header('user-agent', 'Mozilla/5.0') response2 = request.urlopen(req) print(response2.getcode()) print(len(response
## URL管理器 ![](./image/URL.png)
## URL实现方式 ![](image/URL_Realization.png)
## 这里是一个爬虫网页下载器 ### 网页下载器-urllib2 * urllib2下载网页方法1:最简洁方法 ![](./image/URL_download.png) * urllib2下载网页方法2:添加data、http、header ![](./image/URL_add.png) * urllib2下载网页方法3:添加特殊情景的处理器 ![](./image/URL_processor.png) **代码如下** ```python from urllib import request import http.cookiejar url = 'http://www.baidu.com' print('第一种方法:') response1 = request.urlopen(url) print(response1.getcode()) print(len(response1.read())) print('第二种方法') req = request.Request(url) req.add_header('user-agent', 'Mozilla/5.0') response2 = request.urlopen(req) print(response2.getcode()) print(len(response
点击阅读更多
资源评论
大头蚊香蛙
- 粉丝: 16
- 资源: 317
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- cutcamera1715961370938.png
- 基于MATLAB的图像处理课程设计报告.doc
- tensorflow-gpu-2.6.0-cp38-cp38-manylinux2010-x86-64.whl
- mmexport1715960553858.png
- tensorflow-gpu-2.6.0-cp37-cp37m-manylinux2010-x86-64.whl
- 通过 .NET 应用程序中的源代码查找 SQL 注入
- 电子设计竞赛2007年B题 无线识别装置.doc
- Wox全局搜索工具,一款win下的全局搜索软件
- 使用高级集群管理 (ACM) 模板来管理用户、组和命名空间
- 电子设计竞赛2007年A题 音频信号分析仪.doc
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功