搜索引擎-'天湖'(TJWorm)实时中文搜索引擎的研制与开发.pdf资源-CSDN文库

版权申诉

20 浏览量 2022-06-27 06:38:46 上传评论收藏 1.82MB PDF 举报

资源推荐

资源详情

资源评论

墨二童三堡竺墨

一——

————————————————＿—－—————————————————＿———＿＿————－—————＿———’—————————一

第一章

工程背景

１．０１

ＩＮＴＥＲＮＥＴ基本概念和发展现状

Ｉｎｔｅｒｎｅｔ，音译“因特网”，

是以ＴＣＰ／ＩＰ为基本协议族的互联网络，其前

身为１９６９年美国陆军总署出于军事目的建立起的名为ＡＲＰＡＮＥＴ的网络，主要目

的是在战争期间，使美国的通讯仍能保持一定的作战能力。后来，随着经济的

发展，美国的各大高校、各大公司和企业也相继加入这一网络，乃至发展到世

界范围，Ｉｎｔｅｒｎｅｔ也由原来的军事职能转向了民用。到了９０年代以后，尤其

是１９９３年第～个网络浏览器ＭＯＳＡＩＣ产生，引起了世界信息时代的变革。网上

一种名为ＷＷＷ（Ｗｏｒｌｄ

Ｗｉｄｅ

Ｗｅｂ）的服务异军突起，引入了多媒体技术，并加

入了Ｉｎｔｅｒｎｅｔ上其它多种服务的技术和功能，Ｉｎｔｅｒｎｅｔ从而迅速发展起来，

并很快成为信息传播的有力手段。Ｉｎｔｅｒｎｅｔ已经成为世界上最大的资源库。

ｗｗｗ服务的基本协议一ＨＴＴＰ（Ｈｙｐｅｒ

Ｔｅｘｔ

Ｔｒａｎｓｆｅｒ

Ｐｒｏｔｏｃ０１），超文本传输

协议，是面向分布式和协同式超媒体信息系统的应用层协议，是一个请求／响

应协议，其定义的事务处理，主要由以下几个步骤组成：

建立从客户到服务器的连接

客户传送请求信息到服务器

·服务器向客户传送响应信息

客户与服务器断开连接

ＨＴＴＰ具有简单又高效处理大量请求的特点，ＨＴＴＰ允许传送任意类型的数据

对象，建立在ＴＣＰ／ＩＰ连接上，缺省端口为８０。

实际上，ＨＴＴＰ可以建立在Ｉｎｔｅｒｎｅｔ的其它任何协议之上，也可在其它网络

实现，ＨＴＴＰ只要求可靠的传输。

ＨＴＴＰ版本是向下兼容的。例如：ＨＴＴＰ

１．１对只支持１．Ｏ的服务器，仍然按

照ＨＴＴＰ

１．０工作。

Ｗｅｂ浏览器和ＨＴＴＰ服务器的简单工作流程如下：Ｗｅｂ浏览器向ＨＴＴＰ服务器

发送请求，ＨＴＴＰ解析该请求。并根据请求类型决定处理方式，如果请求是一个

非ＨＴＴＰ服务，则该请求被归并到适当的服务（资源）类型，如果请求的是ＨＴＴＰ

服务，ＨＴＴＰ服务器首先对所请求的文件进行定位，然后根据文件类型，决定处

理方式。如何处理不同类型的文件，由服务器维护人员在进行系统配置决定。

当ＨＴＴＰ服务器识别到用户请求是一个可执行程序，如：一个纯的ＪＡｖＡ程序、

蔓二皇三竖堕墨

一

Ｌｉ。ｅＣｏｎｎｅｃｔｉｏｎ接口技术、或是一个ｃＧＩ程序时，它将调用该程序并运行之。

而如果ＨＴＴＰ服务器给出的文件类型浏览器不能够处理，则以文本文件对待并返

回给用户。

１．０２国内其它中文信息查询系统的建设情况

随着网上资源库的发展，在世界各地各大网站出现了许多搜索引擎，在国

内，一些中文信息资源网站（如：中文雅虎、北大天网等）相继开通运营。在

各省市的主要页面，在政府、邮电、高校、各大公司的代表网页上基本上都有

自己的搜索系统。

中文引擎出现比较晚，汉字处理复杂（汉字的双字节结构在流传输时需要

进行编码处理），加之后期维护的工作量大，这诸多方面的原因使得目前的中文

引擎还无法尽善尽美。

搜索引擎的类型是多种多样的，其规模和覆盖的范围各相迥异。但从原理

上讲，基本上都是依据ＲＯＢＯＴ（网络机器人）来实现对用户所需关键字的查找

功能的。

同时，绝大部分中英文引擎为本地数据库查询，当用户输入关键字后，系

统从本地数据库提取符合条件的数据，提交给用户，而并非即时信息的搜索。

在这其中，有些引擎的维护工作做得很好，ＲＯＢＯＴ可以在闲暇的时间段内到全

球网站搜索新发布的信息，存在本地库内，以便在将来用户需要时向用户发布，

而有些引擎则是购买的市面上出售的现成数据库，在一定时期内，数据库内容

相对不变，这在信息飞速发展的今天，是难以适应的。

从开发的思路和手段来讲，此类搜索引擎是多样化的。目前，大多以ＣＧＩ

（Ｃｏｍｍｏｎ

Ｇａｔｅｗａｙ

Ｉｎｔｅｒｆａｃｅ）为编程手段，编写ｃＧＩ程序可采用的开发工具

很多，如Ｃ语言、ｐｅｒｌ、ｓｈｅｌｌ都可以做ｃＧＩ程序；另外，利用Ｊａｖａ

ＪＤＢＣ也

是一种有效的手段；应用数据库自带的开发工具直接写数据库语言也是非常好

的解决方案。一个好的搜索引擎，往往是多种工具联合使用的结果。本系统使

用了．［ＤＢＣ、ＬｉｖｅＣｏｎｎｅｃｔｉｏｎ等多种技术，在本文的后续部分中还有详细阐述。

下面就一些相关问题进一步地阐述。

（一）、两种重要的通用搜索机制：

ｌ、独立引擎：分为两类，一类是由网络机器人自动搜索新文档，自动建索

引，索引基于Ｗｅｂ机器人；另外一种是由人工来完成新文档的增加及分

类，索引基于类别和模板。前者如Ａ１ｔａＶｉｓｔａ、ＷｅｂＣｒａｗｌｅｒ、［ｎｆｏＳｅｅｋ、

Ｌｙｃｏｓ等；后者如ＡＬＩＷＥＢ、Ｙａｈｏｏ、ＩｎｔｅｒＣａｔ等。

２、元搜索引擎：所谓的“元搜索引擎”是指借助其它的导航系统的查询程

２

第一章工程背景

序，代替此引擎进行运转以满足用户的需要。它建立在其它多个独立搜

索引擎的索引之上，自身不查询，借助其他搜索引擎进行查询，如：ＭｅＬａ

ｃ

ｒｉｔｗｌｅｒ、Ｉ叫ｉｎｆｏＭ｛ｔｒｋｅｔ

Ｓｅｒｖｉｃｅ等。

本系统是搜索实时信息的中文搜索引擎，考虑到用户对其它好的搜索引

擎的需求，并考虑到本系统在某些方面无法满足用户（如查询速度和搜索

广度等问题），将“元搜索”功能也加入了本系统，除使用实时中文搜索功

能外，也可由用户自行选择其它引擎进行查询。本系统主页面的“广义搜

索”即是如此。

（二）、搜索引擎评价指标：

评价搜索引擎一般有以下指标：

ｌ、被索引文档数量（Ｓｉｚｅ）。引擎索引的文档的数量的大小不仅仅由引擎的

质量好坏决定，而且，由于机器人一般只能发现和搜集被其它己知文档

至少引用过一次的文档，因此，页面中的超级链接对信息索引极为重要，

如果有一个好的索引页面，则可以使Ｒｏｂｏｔ在很短时间内遍历所有的相

关页面。这样，既提高了系统的效率，又扩大了引擎的搜索范围。

目前，世界上尚没有一个统一的测算标准；

２、覆盖面（Ｃｏｖｅｒａｇｅ）。包括地理范围覆盖面和关键字覆盖面；

３、更新频率（Ａｃｔｕａｌｉｓａｔｉｏｎ）。包括对同一服务器的再检查、再索引和更

新旧数据的索引；

４、文档获取策略（Ｈａｒｖｅｓｔｉｎｇ）。包括广度优先和深度优先两种方法，前

者可能获取的覆盖面更大些，而后者则着重在少数服务器中获取更深、

更细、更为专业的信息。Ｒｏｂｏｔ搜索的深度和广度之间存在一个平衡关

系，它将决定数据库的搜索内容：

５、检索数据（Ｒｅｔｒｉｅｖａｌ）的算法平衡。部分词匹配、逻辑关系操作、词

组匹配、近似匹配、加权匹配等功能所有都实现是不大现实的，提取出

最贴近的数据结果是用户最为关心的。因此，实现各种算法的平衡是开

发者需要充分考虑到的问题；

６、用户界面（Ｕｓｅｒ

Ｉｎｔｅｒｆａｃｅ）。用户界面要力求简洁、实用，便于用户

使用。如：可以通过空格连接词语来实现词的逻辑“与”关系：查找ＨＴＭＬ

页面主题并将其发布给用户等。

１．０３天津市信息交互网的组织状况与本系统在交互网中地位

天津信息港工程是天津信息化建设的标志性工程，是一项跨世纪的信息化

建设项目。其主要任务是建设两个网、十一个信息应用系统和九类信息资源库，

笙二童三堡翌墨一——

简称“２１１９，，工程。·ｒ两个网”指天津公共通信网和天津信息交互网：“十一个

系统，，指经济信息系统、金融电子化系统、对外贸易信息系统、商业自动化与

增值网系统、税收征管信息系统、政务信息系统、科研教育信息系统、城市建

设信息系统、医疗卫生信息系统、社会保险信息系统及社会公共信息服务系统：

“九类信息资源库”指经济信息库、产业信息库、商业信息库、金融信息库、

城市建设信息库、科研教育信息库、政策及法规信息库、人才信息库及社会服

务信息库。

天津市信息交互网是天津市信息港的重要组成部分，是天津信息港工程的

骨干项目。它的主要目标是将天津邮电（Ｃｈｉｎａｎｅｔ）、科研教育网（Ｃｅｒｎｅｔ，在

这里，主要指天津大学、南开大学）、联通、统计局、计委信息中心、科技情报

所等几个主要的接入点互联，设立交互中心（ＴＪＩＸ，Ｔｉａｎｊｉｎ

ｔｎｔｅｍｅｔ

Ｅｘｃｈａｎｇｅ）

统一管理，几大网络在天津市内实现互访，实现“同城信息，本地交换”。从前，

几大网络相互间的信息交换都要通过北京的交换节点或国外的Ｉｎｔｅｒｎｅｔ交换中心

进行，交换后再返回天津，速度很慢，常常会因为北京的网络繁忙或网络方面

的故障导致网络连接不上。９８年９月底天津市信息交互网建设的正式启动，，

使得这种状态大为改观，缓解了北京交换节点的压力，大大加快了几大网络的

互访速度。本人参与了交互网中计委信息中心、统计局、天津热线等部分站点

的部分调试工作。

１９９９年，天津市计划与北京、上海、青岛、大连四城市主干网络互联，扩

大五城市之间的合作，实现信息资源共享。随着信息量的加大，建立一个中文

导航系统，对天津市上千个主要站点的中文信息资源进行归纳、总结、分类和

检索已经成为一种迫切的需求，本系统正是针对这种需求应运而生的。

１．０４本系统的设计目标

本系统依据机器人的爬行机制来自动完成对Ｉｎｔｅｒｎｅｔ上特定内容的提取，

它支持搜索ＧＢ２３１２中文及英文页面，检索用户感兴趣的特定信息，并以较为直

观的形式组织检索到的信息供用户参考。具体设计目标及实现如下：

·搜索对象为天津市内的中、英文主页页面

·用Ｒｏｂｏｔ程序将搜索到的实时信息存入服务器，按照用户的需要实时

发布页面

·将系统查询过程中用户输入的关键字、查询过程中生成的用户识别码

以及查询后的ｈｔｍｌ结果写入Ｏｒａｃｌｅ

８．０．４数据库中，网络管理员可

通过查询库中的信息，从而获得用户查询的信息

４

剩余51页未读，继续阅读

评论收藏

内容反馈

版权申诉

programxh

粉丝: 17
资源: 1万+

搜索引擎-'天湖'(TJWorm)实时中文搜索引擎的研制与开发.pdf

房地产营销策划 -广水天湖马德里营销推广方案.pptx

天湖小学庆“国庆”工会活动方案.pdf

西藏莲宝叶则神山和天湖群导游词_1.pdf

崇左天湖大酒店外立面装修装饰工程外脚手架拆除施工方案.pdf

建筑施工组织2021-玉林天湖·御林湾 会所混凝土工程施工方案.doc

精品（2021-2022年）资料闸门试运行检查表天湖...doc

新鸿地产意天湖别墅营销提案.pptx

天湖ipv6客户端网络电视

新鸿房地产意天湖别墅营销提案.pptx

莲宝叶则神山和天湖群导游词.doc

地产资料新鸿地产意天湖别墅营销提案.ppt

天湖七零三号空间的软装设计.zip

天湖网络电视 ipv6

精品资料（2021-2022年收藏）天湖小学语文教研组学习资料精.doc

天湖IPv6直播软件

CPU-Z 1.78.3 绿色版_检测CPU/主板和内存的相关信息

天湖ipv6网络电视

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

HAI-2024斯坦福AI指数报告（中文译版）.pdf

2023泛娱乐社交出海手册-ZEGO即构科技

4个亲测好用的ChatGPT4渠道

毕业设计的概要介绍与分析

甘晴void的一些相关资源

c语言基础的一些相关资源

最新资源

建筑施工组织2021-玉林天湖·御林湾会所混凝土工程施工方案.doc