没有合适的资源?快使用搜索试试~ 我知道了~
基于JAVA技术的搜索引擎的研究与实现
5星 · 超过95%的资源 需积分: 10 111 下载量 157 浏览量
2008-09-24
00:03:49
上传
评论
收藏 55KB DOC 举报
温馨提示
试读
16页
基于JAVA技术的搜索引擎的研究与实现 基于JAVA技术的搜索引擎的研究与实现
资源推荐
资源详情
资源评论
基于 JAVA 技术的搜索引擎的研究与实现
摘要
网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难
的事情。建立搜索引擎就是解决这个问题的最好方法。本文首先详
细介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人、
索引引擎、 服务器三个方面进行详细的说明。为了更加深刻的
理解这种技术,本人还亲自实现了一个自己的搜索引擎——新闻搜
索引擎。
新闻搜索引擎是从指定的 页面中按照超连接进行解析、搜
索,并把搜索到的每条新闻进行索引后加入数据库。然后通过
服务器接受客户端请求后从索引数据库中搜索出所匹配的新闻。
本人在介绍搜索引擎的章节中除了详细的阐述技术核心外还结合
了新闻搜索引擎的实现代码来说明,图文并茂、易于理解。
Abstract
1
!
"
#
详尽阐述
第一章 引言
面对浩瀚的网络资源,搜索引擎为所有网上冲浪的用户提供了一
个入口,毫不夸张的说,所有的用户都可以从搜索出发到达自己想
去的网上任何一个地方。因此它也成为除了电子邮件以外最多人使
用的网上服务。
2
搜索引擎技术伴随着 的发展是引人注目的。搜索引擎大约
经历了三代的更新发展:
第一代搜索引擎出现于 $%%& 年。这类搜索引擎一般都索引少于
$,''',''' 个网页,极少重新搜集网页并去刷新索引。而且其检
索速度非常慢,一般都要等待 $' 秒甚至更长的时间。在实现技术
上也基本沿用较为成熟的 (( ()、网络、
数据库等技术,相当于利用一些已有技术实现的一个 上的应
用。在 $%%& 年 ) 月到 & 月,网络爬虫
*+平均每天承受大约 $,'' 次查询。
大约在 $%%- 年出现的第二代搜索引擎系统大多采用分布式方案
(多个微型计算机协同工作)来提高数据规模、响应速度和用户数
量,它们一般都保持一个大约 ,',''',''' 网页的索引数据库,
每天能够响应 $',''',''' 次用户检索请求。$%%. 年 $$ 月,
当时最先进的几个搜索引擎号称能建立从 /,''',''' 到
$'',''',''' 的网页索引。0 搜索引擎声称他们每天大
概要承受 /',''',''' 次查询。
/''' 年搜索引擎 /''' 年大会上,按照 1 公司总裁
23 的演讲,1 正在用 )''' 台运行 2 系统的个
人电脑在搜集 上的网页,而且以每天 )' 台的速度向这个微机
集群里添加电脑,以保持与网络的发展相同步。每台微机运行多个
3
爬虫程序搜集网页的峰值速度是每秒 $'' 个网页,平均速度是每秒
&4, 个网页,一天可以搜集超过 &,''',''' 网页
搜索引擎一词在国内外因特网领域被广泛使用,然而他的含义却
不尽相同。在美国搜索引擎通常指的是基于因特网的搜索引擎,他
们通过网络机器人程序收集上千万到几亿个网页,并且每一个词都
被搜索引擎索引,也就是我们说的全文检索。著名的因特网搜索引
擎包括 5、1、67 等。在中国,搜索引擎通
常指基于网站目录的搜索服务或是特定网站的搜索服务,本人这里
研究的是基于因特网的搜索技术。
第二章 搜索引擎的结构
2.1 系统概述
8888搜索引擎是根据用户的查询请求,按照一定算法从索引数据中
查找信息返回给用户。为了保证用户查找信息的精度和新鲜度,搜
索引擎需要建立并维护一个庞大的索引数据库。一般的搜索引擎由
网络机器人程序、索引与搜索程序、索引数据库等部分组成。
系统结构图
2.2 搜索引擎的构成
2.2.1 网络机器人
4
剩余15页未读,继续阅读
资源评论
- w4461347942013-10-08不错,如果有可运行源代码工程就更好了
- muniao20142015-10-25这个有用的东西太少了,基本是拼凑在一起的,用处不大了
- huchun8602012-11-07还可以,内容有点简略
zzzlyr
- 粉丝: 0
- 资源: 4
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- React项目基于JavaScript实现的全球新闻发布管理系统源码.zip
- 基于keras+fasterRCNN,在VOC格式的口罩数据集上训练,检测人群中有无戴口罩python源码+模型
- 基于opencv+qt5机器视觉的传统缺陷检测, 即采用标准图片和待测图片进行pixel to pixel的XOR操作源码+文档
- 管道内检测缺陷数据库管理系统源码+文档说明+sln
- 毕业设计-低功耗STM32F411开发板(原理图+PCB源文件+官方例程+驱动等)源码+文档说明+截图
- 基于yolov5-tensorRT检测+发动机缸体内壁缺陷检测系统源码+文档说明
- 基于C++实现的锂电池缺陷检测源码+文档说明
- push_version
- 软件自制图像批量压缩工具
- 经典缺陷检测算法源码整理包含PaDiM(2020ICPR)、PatchCore(2022CVPR)、SimpleNet+文档说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功