没有合适的资源?快使用搜索试试~ 我知道了~
基于广度优先算法的多线程网络爬虫毕业设计_说明.doc
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 112 浏览量
2022-05-31
21:09:45
上传
评论
收藏 1.08MB DOC 举报
温馨提示
试读
58页
基于广度优先算法的多线程网络爬虫毕业设计_说明.doc
资源推荐
资源详情
资源评论
. . . .
摘要
目前即使通讯软件在平时的生活中有着十分广泛的应用,但是对绝大部分的软件来
说,都必须应用在互联网上,必须在一个环境下才能使用。有时候单位部的
员工,同学,在没有互联网环境下或因其他原因希望不用就可以进行信息交
互,这样开发局域网通信就有了必要性。本文提出了局域网信息交互的需求,并详细对
网络协议协议族进行了介绍和研究,如,,广播等相关技术。并对网络
信息交互原理惊醒了说明,在此基础上利用网络编程实现了一种基于
平台的局域网信息交互功能。
网络爬虫是一种自动搜集互联网信息的程序。通过网络爬虫不仅能够为搜索引擎采集网
络信息,而且可以作为定向信息采集器,定向采集某些下的特定信息,如招聘信息,租
房信息等。
本文通过实现了一个基于广度优先算法的多线程爬虫程序。为何要使用多线程
以与如何实现多线程;系统实现过程中的数据存储;网页信息解析等。
通过实现这一爬虫程序,可以搜集某一站点的,并将搜集到的存入数据
库。将解析的网页存入文档。
关键词网络爬虫; 编程;;网络编程 ;
! " # $ % " & ' % ( ) ( % * + * ) $ % ' ! " #
,,(%%"-."$ * -""#+ "#$ & & '%+ -
I / 58
. . . .
'% & & '% *%" /" % ( 0 -
&' -)"+* + *%" ""+ "'""
$%+" ( ""&% "+ /+%' * (", $%((+*
'#""&%%","!/+ #" -+%,, , +
'"#("( $"1 2+! %#"%""#$ -'' %("#
+ $"1,"""(,"""(&% %"'& '' +&+
--"'-'"+ +"("!% /' $"1%#"%"
2 + ! + " ) % ' % & ' / 3 " + % " ' % % " & " # " 1
$"1,"!%! '"%'"$,(#""' * (",+
,,(%%"/
%,"!$+%+&""(( %#"%"#"% /
"(( '#" + !% -(" % %"(
%#"%""(( "-"(( , %4(()%#"%"#"" $
% -&+.%#"%"-+"& %#"%"/
+%,, -& %,( '+54(!"%+&(%5+ '
/+%,, 2,% " 6","( "#7$+)"&
&(%5+ '%!-'+"$"%,( &(%5+ '8'&& 8.
"' , / /+%"(( #"" $ % -'"
%"' /
988;"1 ,"!%!88
$"1,"!%!
II / 58
. . . .
目录
1 绪论..........................................................................................................................................1
1.1 网络爬虫的发展...............................................................................................................1
1.2 国外技术发展现状...........................................................................................................2
1.3 系统设计的意义...............................................................................................................2
2 总体设计方案..........................................................................................................................3
2.1 系统设计方案...................................................................................................................3
2.2 系统设计框图...................................................................................................................3
否.............................................................................................................................................4
是 否........................................................................................................................................4
是.............................................................................................................................................4
.................................................................................................................................................5
图 2.1.1 网页解析部分流程图...............................................................................................5
.................................................................................................................................................6
图 2.1.2 客户端文件遍历流程图 图 2.1.3 服务器端与客户端通信流程图........................6
2.3 网络爬虫的相关技术.......................................................................................................6
2.3.1 URL.............................................................................................................................6
2.3.2 协议.............................................................................................................................7
2.3.3 JAVA 多线程.............................................................................................................10
2.3.4 JAVA 网络编程.........................................................................................................15
3 系统软件设计........................................................................................................................18
3.1 系统软件概述.................................................................................................................18
3.2 ECLIPSE 软件介绍...........................................................................................................19
3.3 服务器端设计.................................................................................................................20
3.3.1 网本页解析部分.......................................................................................................20
3.3.2 获取新的网络代理部分...........................................................................................30
3.4.1 登录部分...................................................................................................................30
3.4.2 Table 模块.................................................................................................................30
3.4.2 上传档与查询部分...................................................................................................32
3.5 SOCKET 通信部分...........................................................................................................32
3.5.1 什么是 Socket...........................................................................................................32
3.5.2 服务端部分...............................................................................................................35
3.5.3 客户端部分...............................................................................................................37
4 系统运行................................................................................................................................39
4.1 服务器端界面.................................................................................................................39
4.2 客户端界面.....................................................................................................................40
结论..........................................................................................................................................41
III / 58
. . . .
致...............................................................................................................................................42
参考文献...................................................................................................................................43
外文资料原文...........................................................................................................................44
附录 B 汉语翻译......................................................................................................................51
附录 C 程序代码......................................................................................................................54
IV / 58
. . . .
:绪论
:/:网络爬虫的发展
在互联网发展的早期,数量相对较少,信息数据量不大,查找也比较容易。然而
伴随互联网井喷性的发展,普通网络用户想找到自己所需的数据简直如同在数据的海
洋里捞针,为满足大众信息检索需求的专业搜索便应运而生了。
所有搜索引擎的鼻祖,是 :;;< 年由 " ( 的 =%((%* %) 三名学生
( ( ! 、 &+ 、 3%(( + ( ) 发 明 的 +% ( +%
>?)。(! 等想到了开发一个可以用文件名查找文件的系统,于是便有了
+% 。+% 是第一个自动索引互联网上匿名 > 文件的程序,但它还不是真正的
搜索引擎。+% 是一个可搜索的 > 文件名列表,用户必须输入精确的文件名搜索,
然后 +% 会告诉用户哪一个 > 地址可以下载该文件。由于 +% 深受欢迎,受
其 启 发 , *') ",&%! *% 大 学 于 :;;@ 年 开 发 了 一 个
=",+ (=",+ >?)搜索工具 "%( "%>?)。&!+ ' 是后来
另一个 =",+ 搜索工具。虽然当时万维网还未出现,但网络中档传输还是相当频繁
的,而且由于大量的档散布在各个分散的 > 主机中,查询起来非常不便,因此 (
+% 工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网上的文件,
然后对有关信息进行索引,供使用者以一定的表达式查询。
当时,“机器人”一词在编程者中十分流行。计算机“机器人”(",& "")
是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于
检索信息的“机器人”程序象蜘蛛一样在网络间爬来爬去,因此,搜索引擎的“机器人”程
序就被称为“蜘蛛”程序。
世界上第一个用于监测互联网发展规模的“机器人”程序是 + $=) 开发的
"('$%' ' 。刚开始它只用来统计互联网上的服务器数量,后来则
发展为能够检索域名。与 ' 相对应,%"+ 于 :;;@ 年 :< 月创建
了 3,它是 +% 的版本。3 不使用“机器人”程序,而是靠主动提交信
息来建立自己的索引,类似于现在我们熟知的 9+""。
随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在
+ $=) 的 ' 基础上,一些编程者将传统的“蜘蛛”程序工作原理作了
些改进。直到一些编程者提出了这样的设想,既然所有网页都可能有连向其它的,那
么从跟踪一个的开始,就有可能检索整个互联网。到 :;;@ 年底,一些基于此原理的
搜索引擎开始纷纷涌现,但是早期的搜索引擎只是以搜索工具在数据库中找到匹配信
息的先后次序排列搜索结果,因此毫无信息关联度可言。而 3 是第一个在搜索结
果排列中引入关键词串匹配程度概念的引擎。最早现代意义上的搜索引擎出现于 :;;A
年 B 月。当时 %+ (&('% 将 "+ *% 的蜘蛛程序接入到其索引程序中,
创建了大家现在熟知的 )"(C<<< 年被西班牙网络集团 )" $"1 收
购)。同年 A 月,斯坦福(#"')大学最为著名的两名博士生,美籍华人致远
(= )9!)和 *%'>%(" 共同创办了 9+"" 公司,并成功地使搜索引擎的概念
1 / 58
剩余57页未读,继续阅读
资源评论
智慧安全方案
- 粉丝: 3695
- 资源: 59万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功