基于JAVA的搜索引擎的设计与实现资源-CSDN文库

版权申诉

搜索引擎

java

5星 · 超过95%的资源 156 浏览量 2023-11-27 14:53:04 上传评论收藏 2.32MB PDF 举报

资源推荐

资源详情

资源评论

仰恩大学毕业设计(论文)

摘要

网络中的资源非常丰富，但是如何有效的搜索信息却是一件困难的事情。建立搜索

引擎就是解决这个问题的最好方法。本文首先详细介绍了基于英特网的搜索引擎的系统

结构，然后从网络机器人、索引引擎、Web 服务器三个方面进行详细的说明。为了更加

深刻的理解这种技术，本人还亲自实现了一个自己的搜索引擎——新闻搜索引擎。

新闻搜索引擎是从指定的 Web 页面中按照超连接进行解析、搜索，并把搜索到的

每条新闻进行索引后加入数据库。然后通过 Web 服务器接受客户端请求后从索引数据

库中搜索出所匹配的新闻。

本人在介绍搜索引擎的章节中除了详细的阐述技术核心外还结合了新闻搜索引擎

的实现代码来说明，图文并茂、易于理解。

关键词：搜索引擎；网络蜘蛛；搜索策略

仰恩大学毕业设计(论文)

III

摘要............................................................ I

Abstract........................................................... I I

引言............................................................ 1

1 搜索引擎的结构.................................................... 2

1.1搜索引擎系统概述........................................................................................... 2

1.2搜索引擎的构成............................................................................................... 2

1.2.1网络蜘蛛................................................................................................. 2

1.2.2索引与搜索............................................................................................. 2

1.2.3 Web 服务器 ............................................................................................ 3

1.3搜索引擎的主要指标及分析........................................................................... 3

2 网络机器人........................................................ 4

2.1什么是网络机器人........................................................................................... 4

2.2网络机器人的结构分析................................................................................... 4

2.2.2 Spider 程序结构 ..................................................................................... 4

2.2.3如何构造 Spider 程序 ............................................................................ 5

2.2.4如何提高程序性能................................................................................. 7

2.2.5网络机器人的代码分析......................................................................... 7

3 基于 lucene 的索引与搜索、tomcat 服务器........................... 10

3.1什么是 L

UCENE

全文检索 .............................................................................. 10

3.2

UCENE

的原理分析 ....................................................................................... 10

3.2.1客户端设计........................................................................................... 10

3.2.2全文检索的实现机制........................................................................... 11

3.2.3 Lucene 的索引效率 .............................................................................. 11

3.2.4 中文切分词机制.................................................................................. 13

3.2.5服务端设计........................................................................................... 14

3.3

UCENE

与 S

PIDER

的结合 .............................................................................. 15

3.3.1如何解析 HTML .................................................................................. 16

3.4

基于 T

OMCAT

的 W

服务器 ....................................................................... 19

3.5在 T

OMCAT

上部署项目 ................................................................................. 19

4 搜索引擎策略..................................................... 21

4.1简介................................................................................................................. 21

4.2面向主题的搜索策略..................................................................................... 21

4.2.1导向词................................................................................................... 21

4.2.2网页评级............................................................................................... 21

4.2.3权威网页和中心网页........................................................................... 22

结论........................................................... 23

参考文献........................................................... 24

致谢........................................................... 25

仰恩大学毕业设计(论文)

引言

面对浩瀚的网络资源，搜索引擎为所有网上冲浪的用户提供了一个入口，毫

不夸张的说，所有的用户都可以从搜索出发到达自己想去的网上任何一个地方。

因此它也成为除了电子邮件以外最多人使用的网上服务。

搜索引擎技术伴随着 WWW 的发展是引人注目的。搜索引擎大约经历了三代

的更新发展：

第一代搜索引擎出现于 1994 年前后。以 Altavista， Yahoo 和 Infoseek 为代表，

注重反馈结果的数量，主要特征是“求全”。它主要依靠人工分拣的分类目录搜

索，通常由网页制作人自行建立网站名称、网站内容的文字摘要，并将其加入到

搜索引擎的资料库中。搜索引擎根据用户键入的信息，根据预先设定的规则进行

简单的匹配、排序和显示。这种方法只能进行简单的字符串匹配，无法进行全文

搜索。研究表明，搜索引擎性能并没有想象中的那么优秀，在全球 11 个主要的

搜索引擎中，搜索引擎仅能搜索到国际互联网上全部页面的 16% ，甚至更低，造

成这种情况的原因，主要是这些搜索引擎没有及时更新资料。

第二代搜索引擎，利用超链接分析为基础的机器抓取技术，由搜索引擎使用

一个程序在网络上撷取资料，并自动将得到的结果存入索引库中。搜索引擎根据

用户键入的信息进行匹配、排序和显示。这些引擎的主要特点是提高了查准率，

可以用“求精”来描述它的优点，即不需要网站制作人单独键入供搜索的信息，

并且从理论上讲，可将任意网站的所有网页加入到它的资料库中。第二代搜索引

擎的大多数查询都会返回成千上万条信息，查询结果中无关信息太多，而且查询

结果显示比较混乱，使用者仍然难以找到真正想要的资料。

第三代搜索引擎是对第二代搜索引擎的改进，相对于前两代，其更注重智能

化和用户使用的个性化，主要增加了互动性和个性化等高级的技术，采用了中文

自动分类、自动聚类等人工智能技术，而且使用了中文内容分析技术以及区域智

能识别技术，增强了搜索引擎的查询能力。同时，搜索技术将更加智能化，可搜

索资源将更加广泛，搜索方式也将更加便捷有效，为用户使用搜索引擎获取信息

获得更好的体验。

在美国搜索引擎通常指的是基于因特网的搜索引擎，他们通过网络机器人程

序收集上千万到几亿个网页，并且每一个词都被搜索引擎索引，也就是我们说的

全文检索。著名的因特网搜索引擎包括 First Search、Google、HotBot 等。本人

这里研究的就是基于因特网的搜索技术。

剩余27页未读，继续阅读

评论收藏

内容反馈

版权申诉

2301_81670978

2024-01-22

实在是宝藏资源、宝藏分享者！感谢大佬~

Rocky006

粉丝: 5749
资源: 1332

基于JAVA的搜索引擎的设计与实现

搜索引擎的设计与实现

基于JAVA技术的搜索引擎设计与实现.pdf

JAVA基于网络爬虫的搜索引擎设计与实现.pdf

java毕业设计——搜索引擎的设计与实现(论文+答辩PPT+源代码+数据库).zip

基于JAVA的搜索引擎的设计与实现.pdf

计算机本科毕业设计： 基于java的文本搜索引擎设计与实现 包括：代码 答辩PPT 论文

搜索引擎设计与实现

基于JAVA的搜索引擎的设计与实现毕业设计

搜索引擎设计实现

基于Java的垂直搜索引擎的设计与实现.pdf

基于Java搜索引擎的设计与实现.doc

基于Java搜索引擎的设计与实现答辩PPT.pptx

基于ASPNET搜索引擎设计与实现(20210809124818).pdf

基于Java搜索引擎的设计与实现开题报告.doc

基于JAVA的文本搜索引擎的设计与实现

基于JAVA新闻搜索引擎的设计与实现

基于lucene的搜索引擎的设计与实现

基于python的搜索引擎设计与实现

基于Solr的搜索引擎的设计与实现

基于Java的搜索引擎系统设计与实现(项目报告+开题报告+答辩PPT+源代码+数据库+演示录像).zip

Java实现基于内存的搜索引擎设计和实现.zip

基于java的搜索引擎案例设计与实现

基于java的搜索引擎的设计与实现.zip

基于JAVA技术搜索引擎的设计与实现.zip

最新资源

计算机本科毕业设计：基于java的文本搜索引擎设计与实现包括：代码答辩PPT 论文