没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
本科毕业设计
题目:基于网络爬虫的搜索引擎设计与实现
系 别:
专 业:计算机科学与技术
班 级:
学 号:
姓 名:
同组人:
指 导 教 师: 教师职称:
协 助 指 导 教 师: 教师职称:
2008 年 2 月 5 日
摘要
本文从搜索引擎的应用出发,探讨了网络蜘蛛在搜索引擎中的作
用和地住,提出了网络蜘蛛的功能和设计要求。在对网络蜘蛛系统结
构和工作原理所作分析的基础上,研究了页面爬取、解析等策略和算
法,并使用Java实现了一个网络蜘蛛的程序,对其运行结果做了分析。
关键字:爬虫、搜索引擎
Abstract
The paper,discussing from the application of the search
engine,searches the importance and function of Web spider in
the search engine.and puts forward its demand of function and
design.On the base of analyzing Web Spider’s system strtucture
and working elements.this paper also researches the method and
strategy of multithreading scheduler,Web page crawling and
HTML parsing.And then.a program of web page crawling based
on Java is applied and analyzed.
Keyword: spider, search engine
目录
摘要................................................................................................................................2
Abstract ..........................................................................................................................3
一、项目背景................................................................................................................5
1.1 搜索引擎现状分析........................................................................................5
1.2 课题开发背景................................................................................................6
1.3 网络爬虫的工作原理....................................................................................8
二、系统开发工具和平台............................................................................................9
2.1 关于 java 语言..............................................................................................9
2.2 Jbuilder 介绍............................................................................................10
2.3 servlet 的原理..........................................................................................12
三、系统总体设计......................................................................................................14
3.1 系统总体结构..............................................................................................14
3.2 系统类图......................................................................................................14
四、系统详细设计......................................................................................................17
4.1 搜索引擎界面设计......................................................................................17
4.2 servlet 的实现..........................................................................................19
4.3 网页的解析实现..........................................................................................20
4.3.1 网页的分析 ....................................................................................20
4.3.2 网页的处理队列 ............................................................................21
4.3.3 搜索字符串的匹配 .......................................................................22
4.3.4 网页分析类的实现 ........................................................................22
4.4 网络爬虫的实现..........................................................................................25
五、系统测试..............................................................................................................33
六、结论......................................................................................................................35
致谢..............................................................................................................................35
参考文献......................................................................................................................36
一、项目背景
1.1 搜索引擎现状分析
互联网被普及前,人们查阅资料首先想到的便是拥有大量书籍的
图书馆,而在当今很多人都会选择一种更方便、快捷、全面、准确的
方式——互联网.如果说互联网是一个知识宝库,那么搜索引擎就是
打开知识宝库的一把钥匙.搜索引擎是随着WEB信息的迅速增加,从
1995年开始逐渐发展起来的技术,用于帮助互联网用户查询信息的搜
索工具.搜索引擎以一定的策略在互联网中搜集、发现信息,对信息
进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信
息导航的目的.目前搜索引擎已经成为倍受网络用户关注的焦点,也
成为计算机工业界和学术界争相研究、开发的对象.
目前较流行的搜索引擎已有Google, Yahoo, Info seek, baidu等.
出于商业机密的考虑, 目前各个搜索引擎使用的Crawler 系统的技术
内幕一般都不公开, 现有的文献也仅限于概要性介绍. 随着W eb 信息
资源呈指数级增长及Web 信息资源动态变化, 传统的搜索引擎提供的
信息检索服务已不能满足人们日益增长的对个性化服务的需要, 它们
正面临着巨大的挑战. 以何种策略访问Web, 提高搜索效率, 成为近年
来专业搜索引擎网络爬虫研究的主要问题之一。
1.2 课题开发背景
目前虽然有很多种搜索引擎,但各种搜索引擎基本上由三个组成
剩余36页未读,继续阅读
资源评论
Q_97095639
- 粉丝: 377
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功