没有合适的资源?快使用搜索试试~ 我知道了~
搜索引擎-'天湖'(TJWorm)实时中文搜索引擎的研制与开发.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 20 浏览量
2022-06-27
06:38:46
上传
评论
收藏 1.82MB PDF 举报
温馨提示
试读
52页
搜索引擎-'天湖'(TJWorm)实时中文搜索引擎的研制与开发.pdf
资源推荐
资源详情
资源评论
墨二童三堡竺墨
一——
————————————————_—-—————————————————_———__————-—————_———’—————————一
第一章
工程背景
1.01
INTERNET基本概念和发展现状
Internet,音译“因特网”,
是以TCP/IP为基本协议族的互联网络,其前
身为1969年美国陆军总署出于军事目的建立起的名为ARPANET的网络,主要目
的是在战争期间,使美国的通讯仍能保持一定的作战能力。后来,随着经济的
发展,美国的各大高校、各大公司和企业也相继加入这一网络,乃至发展到世
界范围,Internet也由原来的军事职能转向了民用。到了90年代以后,尤其
是1993年第~个网络浏览器MOSAIC产生,引起了世界信息时代的变革。网上
一种名为WWW(World
Wide
Web)的服务异军突起,引入了多媒体技术,并加
入了Internet上其它多种服务的技术和功能,Internet从而迅速发展起来,
并很快成为信息传播的有力手段。Internet已经成为世界上最大的资源库。
www服务的基本协议一HTTP(Hyper
Text
Transfer
Protoc01),超文本传输
协议,是面向分布式和协同式超媒体信息系统的应用层协议,是一个请求/响
应协议,其定义的事务处理,主要由以下几个步骤组成:
·
建立从客户到服务器的连接
·
客户传送请求信息到服务器
·服务器向客户传送响应信息
·
客户与服务器断开连接
HTTP具有简单又高效处理大量请求的特点,HTTP允许传送任意类型的数据
对象,建立在TCP/IP连接上,缺省端口为80。
实际上,HTTP可以建立在Internet的其它任何协议之上,也可在其它网络
实现,HTTP只要求可靠的传输。
HTTP版本是向下兼容的。例如:HTTP
1.1对只支持1.O的服务器,仍然按
照HTTP
1.0工作。
Web浏览器和HTTP服务器的简单工作流程如下:Web浏览器向HTTP服务器
发送请求,HTTP解析该请求。并根据请求类型决定处理方式,如果请求是一个
非HTTP服务,则该请求被归并到适当的服务(资源)类型,如果请求的是HTTP
服务,HTTP服务器首先对所请求的文件进行定位,然后根据文件类型,决定处
理方式。如何处理不同类型的文件,由服务器维护人员在进行系统配置决定。
当HTTP服务器识别到用户请求是一个可执行程序,如:一个纯的JAvA程序、
蔓二皇三竖堕墨
一
Li。eConnection接口技术、或是一个cGI程序时,它将调用该程序并运行之。
而如果HTTP服务器给出的文件类型浏览器不能够处理,则以文本文件对待并返
回给用户。
1.02国内其它中文信息查询系统的建设情况
随着网上资源库的发展,在世界各地各大网站出现了许多搜索引擎,在国
内,一些中文信息资源网站(如:中文雅虎、北大天网等)相继开通运营。在
各省市的主要页面,在政府、邮电、高校、各大公司的代表网页上基本上都有
自己的搜索系统。
中文引擎出现比较晚,汉字处理复杂(汉字的双字节结构在流传输时需要
进行编码处理),加之后期维护的工作量大,这诸多方面的原因使得目前的中文
引擎还无法尽善尽美。
搜索引擎的类型是多种多样的,其规模和覆盖的范围各相迥异。但从原理
上讲,基本上都是依据ROBOT(网络机器人)来实现对用户所需关键字的查找
功能的。
同时,绝大部分中英文引擎为本地数据库查询,当用户输入关键字后,系
统从本地数据库提取符合条件的数据,提交给用户,而并非即时信息的搜索。
在这其中,有些引擎的维护工作做得很好,ROBOT可以在闲暇的时间段内到全
球网站搜索新发布的信息,存在本地库内,以便在将来用户需要时向用户发布,
而有些引擎则是购买的市面上出售的现成数据库,在一定时期内,数据库内容
相对不变,这在信息飞速发展的今天,是难以适应的。
从开发的思路和手段来讲,此类搜索引擎是多样化的。目前,大多以CGI
(Common
Gateway
Interface)为编程手段,编写cGI程序可采用的开发工具
很多,如C语言、perl、shell都可以做cGI程序;另外,利用Java
JDBC也
是一种有效的手段;应用数据库自带的开发工具直接写数据库语言也是非常好
的解决方案。一个好的搜索引擎,往往是多种工具联合使用的结果。本系统使
用了.[DBC、LiveConnection等多种技术,在本文的后续部分中还有详细阐述。
下面就一些相关问题进一步地阐述。
(一)、两种重要的通用搜索机制:
l、独立引擎:分为两类,一类是由网络机器人自动搜索新文档,自动建索
引,索引基于Web机器人;另外一种是由人工来完成新文档的增加及分
类,索引基于类别和模板。前者如A1taVista、WebCrawler、[nfoSeek、
Lycos等;后者如ALIWEB、Yahoo、InterCat等。
2、元搜索引擎:所谓的“元搜索引擎”是指借助其它的导航系统的查询程
2
第一章工程背景
序,代替此引擎进行运转以满足用户的需要。它建立在其它多个独立搜
索引擎的索引之上,自身不查询,借助其他搜索引擎进行查询,如:MeLa
c
ritwler、I叫infoM{trket
Service等。
本系统是搜索实时信息的中文搜索引擎,考虑到用户对其它好的搜索引
擎的需求,并考虑到本系统在某些方面无法满足用户(如查询速度和搜索
广度等问题),将“元搜索”功能也加入了本系统,除使用实时中文搜索功
能外,也可由用户自行选择其它引擎进行查询。本系统主页面的“广义搜
索”即是如此。
(二)、搜索引擎评价指标:
评价搜索引擎一般有以下指标:
l、被索引文档数量(Size)。引擎索引的文档的数量的大小不仅仅由引擎的
质量好坏决定,而且,由于机器人一般只能发现和搜集被其它己知文档
至少引用过一次的文档,因此,页面中的超级链接对信息索引极为重要,
如果有一个好的索引页面,则可以使Robot在很短时间内遍历所有的相
关页面。这样,既提高了系统的效率,又扩大了引擎的搜索范围。
目前,世界上尚没有一个统一的测算标准;
2、覆盖面(Coverage)。包括地理范围覆盖面和关键字覆盖面;
3、更新频率(Actualisation)。包括对同一服务器的再检查、再索引和更
新旧数据的索引;
4、文档获取策略(Harvesting)。包括广度优先和深度优先两种方法,前
者可能获取的覆盖面更大些,而后者则着重在少数服务器中获取更深、
更细、更为专业的信息。Robot搜索的深度和广度之间存在一个平衡关
系,它将决定数据库的搜索内容:
5、检索数据(Retrieval)的算法平衡。部分词匹配、逻辑关系操作、词
组匹配、近似匹配、加权匹配等功能所有都实现是不大现实的,提取出
最贴近的数据结果是用户最为关心的。因此,实现各种算法的平衡是开
发者需要充分考虑到的问题;
6、用户界面(User
Interface)。用户界面要力求简洁、实用,便于用户
使用。如:可以通过空格连接词语来实现词的逻辑“与”关系:查找HTML
页面主题并将其发布给用户等。
1.03天津市信息交互网的组织状况与本系统在交互网中地位
天津信息港工程是天津信息化建设的标志性工程,是一项跨世纪的信息化
建设项目。其主要任务是建设两个网、十一个信息应用系统和九类信息资源库,
笙二童三堡翌墨一——
简称“2119,,工程。·r两个网”指天津公共通信网和天津信息交互网:“十一个
系统,,指经济信息系统、金融电子化系统、对外贸易信息系统、商业自动化与
增值网系统、税收征管信息系统、政务信息系统、科研教育信息系统、城市建
设信息系统、医疗卫生信息系统、社会保险信息系统及社会公共信息服务系统:
“九类信息资源库”指经济信息库、产业信息库、商业信息库、金融信息库、
城市建设信息库、科研教育信息库、政策及法规信息库、人才信息库及社会服
务信息库。
天津市信息交互网是天津市信息港的重要组成部分,是天津信息港工程的
骨干项目。它的主要目标是将天津邮电(Chinanet)、科研教育网(Cernet,在
这里,主要指天津大学、南开大学)、联通、统计局、计委信息中心、科技情报
所等几个主要的接入点互联,设立交互中心(TJIX,Tianjin
tntemet
Exchange)
统一管理,几大网络在天津市内实现互访,实现“同城信息,本地交换”。从前,
几大网络相互间的信息交换都要通过北京的交换节点或国外的Internet交换中心
进行,交换后再返回天津,速度很慢,常常会因为北京的网络繁忙或网络方面
的故障导致网络连接不上。98年9月底天津市信息交互网建设的正式启动,,
使得这种状态大为改观,缓解了北京交换节点的压力,大大加快了几大网络的
互访速度。本人参与了交互网中计委信息中心、统计局、天津热线等部分站点
的部分调试工作。
1999年,天津市计划与北京、上海、青岛、大连四城市主干网络互联,扩
大五城市之间的合作,实现信息资源共享。随着信息量的加大,建立一个中文
导航系统,对天津市上千个主要站点的中文信息资源进行归纳、总结、分类和
检索已经成为一种迫切的需求,本系统正是针对这种需求应运而生的。
1.04本系统的设计目标
本系统依据机器人的爬行机制来自动完成对Internet上特定内容的提取,
它支持搜索GB2312中文及英文页面,检索用户感兴趣的特定信息,并以较为直
观的形式组织检索到的信息供用户参考。具体设计目标及实现如下:
·搜索对象为天津市内的中、英文主页页面
·用Robot程序将搜索到的实时信息存入服务器,按照用户的需要实时
发布页面
·将系统查询过程中用户输入的关键字、查询过程中生成的用户识别码
以及查询后的html结果写入Oracle
8.0.4数据库中,网络管理员可
通过查询库中的信息,从而获得用户查询的信息
4
第~章工程背景
搜索比较安全稳定,容错性比较好
全文查询。分析和过滤HTML文件准确、彻底
关键字匹配效率高,HTML文档一次扫描即可得到结果
自动提取页面主题
查询结果以HTML页面方式发布,界面友好
支持多主题查询,可输入多个关键字实现“与”功能
●
●
●
●
●
●
剩余51页未读,继续阅读
资源评论
programxh
- 粉丝: 17
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功