使用Python的urllib和urllib2模块制作爬虫的实例教程资源-CSDN文库

46 浏览量 2020-12-23 22:11:56 上传评论收藏 512KB PDF 举报

资源推荐

资源详情

资源评论

使用使用Python的的urllib和和urllib2模块制作爬虫的实例教程模块制作爬虫的实例教程

urllib

学习python完基础,有些迷茫.眼睛一闭,一种空白的窒息源源不断而来.还是缺少练习,遂拿爬虫来练练手.学习完斯巴达python爬虫

课程后,将心得整理如下,供后续翻看.整篇笔记主要分以下几个部分:

1.做一个简单的爬虫程序

2.小试牛刀–抓取百度贴吧图片

3.总结

1.做一个简单的爬虫程序做一个简单的爬虫程序

首先环境描述

Device: Mba 2012 Yosemite 10.10.1

Python: python 2.7.9

编辑器: Sublime Text 3

这个没有什么好说的,直接上代码吧!

'''

@ urllib为python自带的一个网络库

@ urlopen为urllib的一个方法,用于打开一个连接并抓取网页,

然后通过read()方法把值赋给read()

'''

import urllib

url = "http://www.lifevc.com"#多嘴两句,为什么要选lifevc呢,主要是最近它很惹我.

html = urllib.urlopen(url)

content = html.read()

html.close()

#可以通过print打印出网页内容

print content

很简单,基本上没有可说的,这个也就是python的魅力,几行代码就完成.

当然我们仅仅抓取网页,没有实在的价值.接下来我们就开始做一点有意义的事情.

2.小试牛刀小试牛刀

抓取百度贴吧图片

其实也很简单,因为要抓取图片,还需要先分析一下网页源代码

(这里以知道基本html知识,浏览器以chrome为例)

如图,这里简要说下步骤,请参考.

打开网页,右键点击,选择”inspect Element”(最下面这一项)

点击下面弹起来的框框最左边那个问号,问号会变成蓝色

移动鼠标去点击我们想要抓取的图片(一个萌妹子)

如图,我们就可以图片在源码中的位置了

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余5页未读，立即下载

内容反馈

weixin_38681286

粉丝: 1
资源: 898

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip