没有合适的资源?快使用搜索试试~ 我知道了~
使用Python的urllib和urllib2模块制作爬虫的实例教程
0 下载量 46 浏览量
2020-12-23
22:11:56
上传
评论
收藏 512KB PDF 举报
温馨提示
urllib 学习python完基础,有些迷茫.眼睛一闭,一种空白的窒息源源不断而来.还是缺少练习,遂拿爬虫来练练手.学习完斯巴达python爬虫课程后,将心得整理如下,供后续翻看.整篇笔记主要分以下几个部分: 1.做一个简单的爬虫程序 2.小试牛刀–抓取百度贴吧图片 3.总结 1.做一个简单的爬虫程序 首先环境描述 Device: Mba 2012 Yosemite 10.10.1 Python: python 2.7.9 编辑器: Sublime Text 3 这个没有什么好说的,直接上代码吧! ''' @ urllib为python自带的一个网络库 @ urlo
资源推荐
资源详情
资源评论
使用使用Python的的urllib和和urllib2模块制作爬虫的实例教程模块制作爬虫的实例教程
urllib
学习python完基础,有些迷茫.眼睛一闭,一种空白的窒息源源不断而来.还是缺少练习,遂拿爬虫来练练手.学习完斯巴达python爬虫
课程后,将心得整理如下,供后续翻看.整篇笔记主要分以下几个部分:
1.做一个简单的爬虫程序
2.小试牛刀–抓取百度贴吧图片
3.总结
1.做一个简单的爬虫程序做一个简单的爬虫程序
首先环境描述
Device: Mba 2012 Yosemite 10.10.1
Python: python 2.7.9
编辑器: Sublime Text 3
这个没有什么好说的,直接上代码吧!
'''
@ urllib为python自带的一个网络库
@ urlopen为urllib的一个方法,用于打开一个连接并抓取网页,
然后通过read()方法把值赋给read()
'''
import urllib
url = "http://www.lifevc.com"#多嘴两句,为什么要选lifevc呢,主要是最近它很惹我.
html = urllib.urlopen(url)
content = html.read()
html.close()
#可以通过print打印出网页内容
print content
很简单,基本上没有可说的,这个也就是python的魅力,几行代码就完成.
当然我们仅仅抓取网页,没有实在的价值.接下来我们就开始做一点有意义的事情.
2.小试牛刀小试牛刀
抓取百度贴吧图片
其实也很简单,因为要抓取图片,还需要先分析一下网页源代码
(这里以知道基本html知识,浏览器以chrome为例)
如图,这里简要说下步骤,请参考.
打开网页,右键点击,选择”inspect Element”(最下面这一项)
点击下面弹起来的框框最左边那个问号,问号会变成蓝色
移动鼠标去点击我们想要抓取的图片(一个萌妹子)
如图,我们就可以图片在源码中的位置了
资源评论
weixin_38681286
- 粉丝: 1
- 资源: 898
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功