网络爬虫之简单链接抓取资源-CSDN文库

共2个文件

pdf：1个

py：1个

网络爬虫

链接抓取

5星 · 超过95%的资源需积分: 50 201 浏览量 2014-10-19 22:07:27 上传评论 1 收藏 982KB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

.rar （2个子文件）

网络爬虫.pdf 1.03MB

spider.py 4KB

2014-10-18

今天介绍一下一种网页数据获取的方式：网络爬虫。

相信这个名字大家一点都不陌生，目前知名的搜索引擎像百度，谷歌等每天都有超过十

万数量级以上的网络爬虫游离于各个网站服务器之间，抓取网站数据并将其储存于搜索引擎

数据库之中，然后搜索引擎会对网页的价值进行判定，像谷歌公司比较有名的 PageRank 算

法。

网络爬虫获取网页的方法是：以一个种子 URL 为入口点，从入口网页获取网页中隐含的

面向其他网页地超链接。

以一个导航网站为例：

这是一个从某导航网站上截取的图片，当用户输入网址以后服务器返回的其实是网页的

html 源代码，浏览器对源码进行解析以后才得到我们所想要的网页。

查看网页源代码的方式很多，以搜狗浏览器为例，在网页上右键列表中选择“查看源文

件”选项即可。

查找关键字“优酷网”定位，可得到发现，源代码前面:

<a href=http://www.youku.com tj=”sp2”>已经暴漏了优酷网网站的网页地址。

网络爬虫便是如此，通过种子 URL 获得网页，保存感兴趣的内容，然后从获取的网页中

发现新的 URL（可能不止一个），再以新的 URL 作为爬取对象，获取新的网页，保存内容，

再获取新的链接。如此循环，最终直到获取到的网页没有超链接，停止爬取。

当然爬虫在一个网页取得的连接其他网页超链接数目可能不止一个，如上面导航网站为

例，该导航网站除了链接“优酷”以外，还有“爱奇艺”“迅雷”等等，这样就导致一个抓

取策略的问题，主要分为广度优先抓取还有深度优先抓取。以下是一个简化了的网页拓扑图：

图中箭头表示网站的超链接，如导航网页中包含了指向淘宝、优酷的超链接，优酷网站

又包含指向娱乐节目的超链接，娱乐网站又包含指向暴走大事件的超链接。

所谓广度优先抓取；爬虫优先访问的是同一层次的网站，同一层次的网站访问完了以后

在访问下级层次，就像把 URL 种子看成是一个圆心，每个链接箭头是一个半径，由圆心开

始访问，由内而外访问同心圆。对同一层次的网页访问顺序可能由于保存（入栈）的方式不

同而不同，但这并不影响获取每一个网页的结果。

在图中采用广度优先抓取的访问次序是：导航→淘宝、优酷、爱奇艺、迅雷→电视剧、

导航

爱奇艺

淘宝

优酷

迅雷

电视

剧

娱乐

暴走大事

件

同心圆

Big

笑

功坊

电影

钢铁

侠

娱乐、电影→暴走大事件、Big 笑功坊、钢铁侠

所谓深度优先抓取；爬虫是按照深度递归的方式抓取网页，只要网页中还存在超链接，

那么爬虫会一直访问直到抓取到没有超链接的网页，再返回上一层次，如果返回的层次中存

在未抓取的网页，则对网页进行抓取，如果网页存在超链接，那么重复上述步骤直到抓取不

到链接。以上述图中网络拓扑为例，一种可能的抓取方式是：

导航→[优酷→（娱乐→暴走大事件→big 笑功坊）→（电影→钢铁侠）]→[淘宝]→[爱奇

艺→电视剧]→[迅雷]

[注：上面式子中不同括号代表不同层次，相同符号代表相同层次]

对于深度优先和广度优先，可结合数据结构中图的遍历方式进行理解消化。

构建网络爬虫的主要目的在于获取我们感兴趣的信息，下面我们采用建立一个小型的链

接数据文本（一般我们采用数据库，但这里简单起见只把信息保存到文本文件）为例，写一

个小型的爬虫脚本。由于 python 语言具有便捷，语法简单，移植性强，轻量的特点，考虑

采用 python 语言。

目的

构建爬虫，建立小型网站链接文本标记网

站名字与 URL 信息；例如：

优酷网 www.youku.com

语言

Python

语音版本

Python 2.7.6

抓取方式

广度优先抓取

Python 的环境搭建很简单， windows 平台直接在

https://www.python.org/download/releases/2.7.6/

下载安装即可， python 集成了 IDLE 开发环境，便于我们编写功能模块，当然目前还有很多

很不错的集成化开发环境像 eclipse 等，但我觉得有 IDLE 这个工具足矣。下面我将用 IDLE 的

方式开发本功能模块。

开发步骤：

（1）打开 IDLE：

Window 按钮→所有程序→python 2.7.6→ IDLE(python GUI)

（2）新建 python 文件：File→new windows(或者 new file)

（3）python 内置 urllib2 模块已经能够满足我们抓取网页地需要，在新文件中中输入以下代

码，代码相对简单：

[注意：“#”后面的内容为注释，不熟悉 python 的同学注意了]

import urllib2

urlSeed="http://www.2345.com" #URL 种子

website=urllib2.Request(urlSeed); #向网站请求访问

webpage=urllib2.urlopen(website).read(); #打开网站（urlopen）并读取数据（read）

#这里把两个方法合在一起使用了。

print webpage; #打印网页内容

保存代码，指定保存路径，如果有弹出对话框，按下 Edit my file：

将编码（coding）改成 utf-8

按下 F5，或者 Run 里面的 Run Module

如果没有错误，代码开始运行，如果有弹出错误对话框，请确认是否有输入错误，

一般是中英文标点符号问题。

执行结果如下，Ctrl+F 查找“优酷网”，可定位到优酷网源码位置，如下图所见，获

得的数据和浏览器查看的源代码一模一样。

评论收藏

内容反馈

wangyouqi

2015-10-11

python 学习了
zovyhsia

2015-01-23

有用，看了文章来下载学习一下

DuishengChen

粉丝: 79
资源: 1

网络爬虫之简单链接抓取

网站链接抓取器(自动抓取).zip

网络爬虫，爬指定网页的所有连接

一键提取网站页面内链接工具

超链接提取工具 网站链接抓取器下载 提取网页全部超链接

百度首页数据抓取：用Python快速入门网络爬虫

微信扫码支付

京东支付接口文档

接口抓取工具

create-nullstatic-app:抓取应用程序中的每个可访问链接并生成静态HTML

超级app提取连接

网页爬虫，网页抓取，js加载后网页抓取，超简单。

抓取页面，网络爬虫两个例子

网络抓取，登录 爬虫

searcher:网络爬虫抓取数据

网络爬虫，抓取视频信息

最新支付宝余额抓代码教程

京东30分钟接口.rar

CHROME浏览器链接抓取工具

Python 抓取网页下载链接

支付接口调试工具

C#版本的网络爬虫，抓取网络资源

网络爬虫新浪微博抓取

图片抓取网络爬虫（自开发）

python网络爬虫抓取教程

抓取图片（网络爬虫）

歌曲链接提取和下载(htmlparser 和http下载)

mp3音乐信息解析+MD5信息加密

《点燃我温暖你》中李峋的同款爱心代码

122版本Chrome最新驱动-122.0.6261.58

第十五届蓝桥杯大赛软件赛省赛-PythonB组题目

最新资源

超链接提取工具网站链接抓取器下载提取网页全部超链接

网络抓取，登录爬虫