没有合适的资源?快使用搜索试试~ 我知道了~
全文检索系统整体方案.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 165 浏览量
2023-05-18
12:57:05
上传
评论
收藏 1.16MB PDF 举报
温馨提示
试读
16页
全文检索系统整体方案.pdf
资源推荐
资源详情
资源评论
. .
1 全文检索系统方案
1.1 全文检索需求
1) 系统提供模糊检索、分类搜索、高级复合搜索、全文检索、图片内容检
索、跨库检索等多种检索途径;
2) 支持字索引和词索引;
3) 检索条件具有完整的关键词布尔逻辑运算 AND、OR、NOT 能力,支持复
合式布尔逻辑运算查询,并且可以配合多组左括号"("与右括号")"作关
键词查询优先级的设置;
4) 提供用户屡次递进查询的功能,用户可根据上一次查询关键词得到的检
索结果集,增加查询关键词与缩小搜索日期范围,而得到更准确的查询
结果集;
5) 能够支持对以上文件中的中文〔简体/繁体〕、英文、日语、韩语内容实
现关键字检索;
6) 支持对 Word、TXT、PDF 等多种主流文档格式全文检索,并提供开发接
口以支持特殊文档格式的全文检索;
7) 在数据源数据发生更新时,能在索引库中反映出来,保证搜索的信息为
最新,即支持增量索引机制;
8) 用户可自行设定时间,让系统自动定时进展更新索引;
9) 对于百万级记录数的搜索以及结合模糊搜索等查询方式,搜索时间不得
超过 10 秒;
10) 提供跨数据源、数据格式的搜索;
11) 同过相关性搜索,能够把和搜索条件相关联的信息搜索出来;
12) 不但能够对图片的描述信息进展搜索,还能对图片内容的检索;
13) 提供与 SOAP 的搜索接口(Interface)可让其它应用程序或查询网页能够
提供用户查询入口和查询结果的呈现,用户可通过应用程序或浏览器访
问全文检索效劳器,提交查询条件,可在浏览器中查看检索结果;
14) 查询结果集中应包含结果集总数、命中的结果文件的完整路径,以及符
合关键词出现的内容片断;
15) 在搜索结果集中,关键词应被标识出来,用特殊的字体及颜色和其他文
字进展区别,查询者可在查询结果片断中一目了然的看到关键词出现的
位置;
16) 查询结果可按照关键词命中次数,命中结果文件的修改时间,大小等条
件进展排序;
17) 可提供用户对检索命中结果文件在索引库中进展标记,从而再次检索
时,不在标记过的文件中进展查询;
-优选
. .
1.2 全文检索系统总体方案
系统将采用以下全文检索流程。
针对企业内部的信息,包括文件效劳器上的文件、网页、ERP 等系统存放信
息的数据库信息、办公应用中的公文档案文档已经内容管理系统中流转的内容,
本系统提供了两种数据适配器来提取其中的正文内容和属性内容,形成一个相对
构造化的数据虚拟层;本系统的索引引擎〔Indexer〕对构造化的数据虚拟层进
展中文切分词、文件特征分析和逐步索引,以及其它索引算法,生成索引数据库;
使用者〔user〕在搜索页面中输入查询字串等搜索条件并提交给本系统后,本系
统的全文检索查询引擎〔Searcher〕会在索引库中进展搜索,并将符合搜索条件
的搜索结果返回给使用者;使用者〔user〕可于查询结果页面,进一步到信息原
文查看详细内容。
对于系统管理,管理员可通过相应 web 方式的管理程序来管理整个系统运行
环境及设置文件;并通过索引引擎〔Indexer.exe〕实时或定时创立索引,更新
索引数据库的内容,使检索信息维持在最新状态。
1.3 全文检索系统带来的效益
✓ 高效率的整合搜索,大幅减少组织成员在取得信息时花费的时间!
本系统和其它搜索系统只针对特定信息源搜索不同,它能对企业内部绝大多
数的信息创立索引和搜索,具备强大的信息整合及快速回应能力,让企业成
员以单一搜索页面、简易的操作方式,即可在最短时间内,完整、准确、及
时地掌握企业内外所有信息,不必再消耗大量时间的找寻信息!
✓ 信息过量不会造成企业成员的信息焦虑!
通过本系统强大的索引/搜索能力,大量的信息也可在瞬间过滤出符合使用
者条件的信息,不必担忧迷失在漫漫的信息洪流之中!
✓ 非构造/非组织的信息,不再是知识管理的盲点!
文件/档案以及非经过分类管理的信息,因为附加信息稀少,往往成为知识
利用上难以判断、分析的信息。本系统直接针对内容全文分析、关联,使这
类信息同样可让使用者以检索方式,快速筛选利用!
-优选
. .
✓ 整合容易,使用简易,导入迅速,易于承受!
套装化、模块化的设计及灵活的整合能力,能在企业内迅速的安装设置;操
作方式简单,企业成员易于承受,导入方便。以最经济的时间、人力及费用
本钱为企业创立信息流通、充分分享的知识环境。
1.4 全文检索系统平台架构
本系统基于组件化和松散耦合架构和设计,系统平台架构示意图如下:
整个系统主要分为信息整合、信息萃取和效劳、应用整合三个局部。
✓ 信息整合
此局部主要作用是将企业内部存储于不同应用系统中的构造化信息、半构造
化信息、非构造化信息通过本系统提供的两种数据适配器进展信息提取,形成一
个相对构造化的数据虚拟层,以备后期信息萃取和效劳。
✓ 信息萃取和效劳
在信息整合层形成的相对构造化的数据虚拟层根底上,本系统将对其中的每
笔记录进展中文切分词、索引、文件特征分析、自动分类等各种演算算法处理,
形成可以提供搜索效劳的索引库。用户利用本系统的搜索引擎处理提供的强大的
搜索功能,如中文同音搜索、简繁体对译、模糊搜索、同义词搜索、文章概念搜
索、分类浏览等,快速、准确、完整、及时、有效地搜索到符合自己搜索条件的
信息。
✓ 应用整合
本系统还提供了完整的外部程序整合机制。所有组件均提供 SDK 完整开发
接口,方便应用整合和应用扩展。
1.4.1 信息整合
此局部主要提供对
企业内外部非构造性数
据信息源建立自动化数
据汇入功能。根据用户实
际需求,用户可以选择导
-优选
. .
入包含 Text、Microsoft Office、XML、RTF、PDF、HTML、MHT、AutoCAD
及〔含附件文件〕等格式及文件影音附件〔如影片的文件名或摘要、图片的文件
名或摘要、及文字〕自动化建立索引数据,建立索引数据所处理之文字包括繁体
中文、简体中文等;
同时用户可以选择导入数据库数据,如 Oracle、 Informix、Sybase、
MS SQL 等。此外和 Notes 系统也已经有了无缝整合,可挂载 Notes poser
对 nsf 库中正文及附件信息索引,在做索引的过程中自动把每笔记录的权限键入
索引库。
本系统提供可挂载的数据适配器(Data Adapter),将异质的数据来源与数
据构造进展汇整与粹取,亦扮演将非构造的信息构造化,可以很容易地分析特殊
档案格式和管理复杂的数据源构造〔如递归、巢状等〕的多功能设计,以方便信
息检索与管理。
以含附件为例, Adapter 可解析内文,而中选购 office Adapter 后,原
来的 Adapter 即可解析 office 相关的附件文件,可视需求额外购置 PDF、
ZIP、RAR、OCR 等不同数据适配器,即可交互搭配使用。
搭配使用本系统的 TXT、Microsoft Office、RTF、PDF、HTML、及
FileMeta 资料提取器,将可解析Text、Microsoft Office、XML、RTF、PDF、
HTML、MHT 及〔含附件文件〕及文件影音附档〔如影片的文件名或摘要、图
片的文件名或摘要、及文字〕等格式,包括繁体中文、简体中文、英文、Unicode
等;使用数据库数据适配器,将可支持数据库数据汇入处理如 Oracle、
Informix、Sybase、MS SQL 等。
1.4.2 信息萃取和效劳
此局部须提供对数据提取的内容所包含的信息,进展数据处理分析,包含:
✓ 分类模式建立自动分类功能。
✓ 针对非构造性数据建立词库,词库须包含同音词库、同义词库、专业词
库。
✓ 自动分类机制与专业词库须具备自动学习与修正之功能以提升数据处
理准确度。
✓ 可针对不同使用层级、工程进展非构造性数据权限控管。依照使用者不
-优选
剩余15页未读,继续阅读
资源评论
hhappy0123456789
- 粉丝: 61
- 资源: 5万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功