互联网实时信息搜索引擎
北京信息工程学院 都云程 du.yuncheng@trs.com.cn
北京市经济信息中心 武朝尉 wucw@beic.gov.cn
TRS 信息技术有限公司 王洪俊 程鸿兴
摘要
本文介绍了一个实时信息搜索引擎系统的技术实现框架。 系统的设计目标 是
克服传统搜索引擎在信息更新滞后以及检索结果排序方式单一等方面的缺点, 满
足用户对特定信息的实时查询需求, 并提供检索结果的内容相关排序和时间排 序
等多种排序手段。 系统融合了基于统计学习理论的自动分类技术以及基于文本 特
征的自动排重技术等智能化信息处理技术,有效提高了信息服务的质量。
关键词 搜索引擎,实时信息,自动分类,相关排序
Abstract
Abstract
Abstract
Abstract
A
real time search engine system is introduced in this paper. The system is
designed to overcome the shortcomings of traditional search engines in long index
update schedule and retrieval results sorting method, and matches the needs of real
time information retrieval and multiple sorting methods. Some intelligent information
processing technologies is also adopted in the system in order to improve the
effectiveness of syste m services, such as automatic text classification based on
statistical language modeling and overlapped web page filter based on text
characteristics.
Keywords
Keywords
Keywords
Keywords
Search Engine , Real Time Information , A utomatic Text Classification ,
Relevance Ranking
一、 背景分析
据最新统计,互联网上的 Web 网页已经超过 30 亿的数量,这无疑是当今 世
界上最丰富的信息宝藏。 随着人们日益习惯于在这个宝藏中发掘所需的信息, 搜
索引擎逐步成为人们越来越依赖的工具。
但是通过研究可以发现, 通用的搜索引擎系统在某些方面并不能很好地满 足
专业化的信息需求, 即搜索引擎有其应用上的局限性, 这些局限性很大程度上 影
响着专业化信息搜索的效果。主要的局限性表现在两点:
1 、 时效性
从时间的角度看, 互联网是一个内容随着时间不断变化的信息集合。 每时 每
刻, 总有新的网页产生, 也有旧的网页被删除。 搜索引擎所能反映的是一个特 定
的时间段 (即建立索引的时间段) 内互联网的信息特征。 这样就产生了两个局
限:
评论0
最新资源