![](https://csdnimg.cn/release/download_crawler_static/86329083/bg1.jpg)
2020.04
图
1
网络爬虫架构图
爬虫
调度端
爬虫核心模块
!"#
管理器
发
现
爬
取
目
标
!"
#
网页下载器
网页解析器
存储数据
$ 概述
%&’
已经成为日新月异迅速发展的网络信息技术中
的信息载体, 如何有效地提取和利用这些信息已经成为
亟待解决的问题。 利用搜索引擎可以获得互联网最有用
的、 可以免费公开访问的数据集, 查找用户所需的价值
数据或者相近的价值信息。 作为搜索引擎的核心组成模
块, 网络爬虫在信息检索过程中有着举足轻重的地位。
通过网络爬虫技术可以迅速找到这些被嵌入在网站的结
构和 样式 中的 有 用信 息, 并给 用户 筛选 出 有价 值 的 数
据。 因此, 网络爬虫技术的研究, 在很大程度上节省了
更多的人力和物力资源, 而且在搜索引擎的发展中具有
十分重要的意义。
( )*+,-. 简介
)*+,-.
是一种广泛使用、 功能强大面向对象的程序
设计语言, 能够在短时间内简单有效地实现面向对象编
程,
)*+,-.
语言 飞速 发 展 , 其 简 洁 、 免 费 、 易 学 、 兼
容性好等特点受到众人喜爱
/$0
。
使用
)*+,-.
编写网络爬虫有其独特的优势。
(
$
) 语言简洁, 使用方便。 与其他经常使用英语关
键字 和 一些标 点符 号的 语言 相比 , 用
)*+,-.
书写 的代
码更容易阅读和理解, 语法比较简单, 其设计更简洁、
方便、 高效, 也更容易为大众用户所使用。
)*+,-.
易于
配置 的脚 本特 性, 还 使 得 它 在 处 理 字 符 方 面也 非 常 灵
活。 此外,
)*+,-.
通过强大的爬虫模块, 对抓取网页本
身的接口操作和网页抓取后的处理都得心应手。
(
1
) 提供功能强大的爬虫框架, 各种爬虫框架方便
高效地下载 网 页, 这使 得
%&’
爬虫更高 效地对数 据进
行爬取。
(
2
) 丰富的网络支持库及网页解析器,
)*+,-.
拥有
便 捷 的 库 , 包 括
"&34&5+
、
6&7&.+
、
8&9:5
、
;:&’<
、
=>?=
、
):==-@
、
A*34&8*
、
B#CD
、
E&<4+:F4=G-4A
等。 无论 是最 简
单的爬虫程序还是复杂的爬虫系统, 都可以利用它们轻
松完成。
2 网络爬虫
2HI 定义
网络爬虫, 主要用于收集互联网上的各种资源, 它
是搜索引擎的重要组成部分, 是一个可以自动提取互联
网上特定页面内容的程序, 一段自动抓取互联网信息的
程序称为爬虫, 爬虫指的是: 向网站发起请求, 获取资
源后分析并提取有用数据的程序, 从技术层面来说就是
通过 程序 模拟 浏览 器请 求站 点的 行为 , 把 站 点 返 回 的
JCK#
代码、
LGMB
数据、 图 片、 视 频 等 爬 到 本 地 , 进
而提取自己 需要的数据, 存放起来使用
/10
。 网络爬虫架
构如图
N
所示。
(
N
) 爬虫调度端是程序的入口, 主要负责爬虫程序
的控制, 这包括爬虫程序的启动、 执行和停止, 或者监
视爬虫中的运行情况。
(
1
) 爬虫核 心模块包括
!"#
管理器、 网 页下 载器
和网页解析器
2
个部分。
N
) 等待爬取的
!"#
数据和已
作者简介:
张艳 (
NOPNQ
), 女 , 讲 师, 硕士 , 研 究方
向: 计算机软件及理论。
基于 )*+, -. 的网络数据爬虫程序设计
张艳
1
,吴玉全
2
($H 江苏省宿迁高等师范学校学前三系,江苏 宿迁 112PRR;
(H 中国电信股份有限公司宿迁分公司,江苏 宿迁 ((2PRR)
摘 要:
)*+,-. 语言是一种 跨平台、面向对象的解释型编程语言 ,它的语法简洁,应用广泛且容易操
作。与其他语言相比,基 于 )*+,-. 的爬虫有很多优势。主要介绍了基于 )*+,-. 的爬虫技术,给出了利
用 )*+,-. 进行网站数据的爬取程序设计,阐释了 )*+,-. 爬虫技术的先进性和便捷性。
关键词:
)*+,-. 语言;网络爬虫;程序设计
26
DOI:10.16184/j.cnki.comprg.2020.04.010
评论0