精准检索文档

所需积分/C币:1 2012-10-17 14:12:01 1.15MB PDF
1
收藏 收藏
举报

精准检索
JZSearch manual www.nlpir.org 目录 JZSearch精准搜索引擎技术白皮书.… 目录 3 入门篇:了解基本知识 1.1、 JZSearch精准搜索引擎介绍…. 1.2、 JZSearch精准拽索引擎性能测试……. 13、字段类型定义 1.4、精准搜索排序策略. 667789 二、通用篇:五步配置搭建搜索服务. 21、采用可视化界面配置(适用于 Windows,安装包比较大,需要可另外索取卜载).9 2.1.1、运行 star. bat出现初始界面,配置数据库信息 2.1.2、选择要建立索引的表,点击“执行”、“创建索引”… 10 2.1.3、弹岀如下界面:配置好字段信息:点“创建索引文件” 214选择索引服务,然后选择项目,点击建立索引: 215:索引建立成功之后,即可开启索引服务,测试索引: …12 22、采用手工配置(适用于各种操作系统) 12 22.1第一步:配置数据库读取参数 222第二步:数据库字段信息列表导入… …14 223第三步:建立字段信息文件 “·++“““++ 14 224第四步:自动建立索引. 14 225第五步:启动搜索服务. 226第六步:启动客户端服务 2.2.7 其他脚本. .14 2.2.8 Linux环境 画,““ t音曲 三、进阶篇:了解內核. 6 3.1、J丿 ZSearch检索语法说明.. 16 3.1.1搜索与运算符AND. 16 3.1.2搜索或运算符OR 16 3.1.3搜索非运算符NOT …17 3.1.4搜索邻近运算符NEAR 17 3.1.5搜索智能模糊运算符 FUZZY…. 3.1.6搜索范围运算符RANG .17 3.L.7搜索最小值运算符MIN 18 3.1.8搜索最人值运算符MAX. 3.1.9搜索前缀运算符 PREFIX 18 3.1.10搜索精准运算符 PRECISION ·i 18 3.1.11搜索排序运算符SORT 19 3.2 JZSearch搜索后台服务系统搭建 19 3、3 JZSearch客户端搭建与管理指南 3.3.1客户端管理命令语法 3.32命令行方式 JZSearch Copyright 2011 Kevin Zhang. All rights reserved 3/59 JZSearch manual www.nlpir.or 333C语言API方式 334JAVA语言调用搜索客户端 四、高级篇:API定制开发 ····;······· 24 4.1字段定义接口 24 41.1 JZIndexer FieldAdd添加个宇段 24 4.12 JZIndexer FieldSave保存已经设置的字段信 …25 41.3 JZIndexer fieldLoad读取已经设置的字段信息文件 26 4.2索引接口. 4.2.1 JZindexer init精准索引器初始化… 26 422 JZIndexer exit精准索引器系统退出 27 4.2.3 CJZIndexer精准索引器类 42.3.1 CJZIndcxcr: CJZindexcr精准索引器类构建函数. .29 42.3.2 CJZIndexer: MemIndexing精准索引器类内存索引函数 42.3 CJZIndexer: Filelndexing精准索引器类文件索引函数.… 42.34 CJZIndexer: BigFilelndexing精准索引器类大文件索引函数.33 42.3.5 CJZIndexer: IdIndexing精准索引器类ID索引函数. 34 42.36 CIZIndcxcr: IntIndcxing精准索引器类整型索引函数. 42.37 CJZIndexer: LongIndexing精准索引器类64位长整型索引函数….36 42.3.8 CJZIndexer: FloatIndexing精准索引器类浮点型索引函数.… 38 42.39 CJZIndexer: Adddoc精准索引器类文档添加函数. 42.3.10 CJZIndexer:Save精准索引器类保存凶数. 40 42.3.11 CJZIndexcr: Merge精准索引器类索引合并函数 ++ 42.3.12 CJZIndexer: Export精准索引器类索引导出函数 检索接口 43.1 JZSearch Init精准搜索器初始化 43.2 JZSearch exi精准搜索器系统退出 …4 4.3.3 JZSearch reload精准搜索器系统增量加载...145 43.4 JZSearch Export精准搜索器系统索引内容导出函数 43.5 JZSearch Merge精准搜索器系统索引归并优化函数 47 43.6搜索结果的数据记录结构 437 CJZSearcher精准搜索器类…. 437.1 CJZSearcher: CJZSearcher精准索引器类构建函数. 50 43.7.2 CJZSearcher: Search精准索引器类搜索函数. 50 437.3 CJZSearcher: Search精准索引器类搜索函数..151 437.4 CJZSearcher: DocDelete精准索引器类索引文档删除函数.… 4.4利用 JZSearch开发程序,搭建搜索引擎服务指南. 53 五、案例篇. 54 5.1中国邮政集团名址信息中心首页的邮址垂直搜索 54 5.2河北标准化研究院的标准搜索. 54 53中国对外承包工程商会的知识搜索门户 5.4富基融通的商品比价搜索… 56 5.5WBK微博人物搜索. 六、问答篇:FAQ及小技巧 6.1:环境问题.… 58 JZSearch Copyright 2011 Kevin Zhang. All rights reserved 4/59 JZSearch manual www.nlpir.or 6.1.1 JZSearch支持 Linux吗? 6L,2 Linux环境使用太不方便,有什么技巧? 2:索引问题. 621在 Windows下,针对 MySQL数据库的索引老是创建不成功,访问不了数据 库,为什么 6.3:搜索问題. 63.1老是搜索不到结果或者搜索到的结果老是不变的,怎么回事? 七、作者篇. JZSearch Copyright 2011 Kevin Zhang. All rights reserved 5/59 JZSearch manual www.nlpir.org 、入门篇:了解基本知识 11、 JzSearch精准搜索引擎介绍 JZSearch精准搜索引擎由北理工副研究员张华平博士精心设 具有高扩展性和髙通用性。可支持文木、数字、日期、字符串等各种 数据类型的高效索引,支持丰富的查询语言和査询类型,支持少数民 族语言的搜索。目前已经应用于中国邮政搜索引擎、河北省标准搜索 引擎、富基融通(纳斯达克上市公司:EFUT)商品搜索。 同时,全文搜索屮间件通过可视化界面,可以快速地配置相关参 数,启动搜索服务,并提供测试程序,可以无缝地与现有数据库系统 融合,实现全文搜索与相关的数据库管理应用系统。 其主要特性包括: ◇可以按照任意指定字段的排序,支持指定字段的搜索,也可以搜 索多个字段,以及复杂表达式的综合搜索; ◇支持精确匹配以炇模糊匹配,默认为精确匹配,忽略字母大小写 进行模糊匹配; ◇支持增量索引:系统可以在搜索服务不停的前提下,继续索引新的 数据,索引完成后,可以搜索新的数据; ◇自动备份与恢复机制,在建立索引和自动优化之前,系统会将已 有的索引文件自动备份;在当前索引文件被破坏无法搜索的前提 下,系统将自动恢复上次搜索正常的备份文件; ◇自动缓存机制,系统自动保存最近常用的搜索条件与结果,再次 JZSearch Copyright 2011 Kevin Zhang. All rights reserved 6/59 JZSearch manual www.nlpir.org 搜索时将直接推送搜索结果内睿,可以将搜索响应速度提丌30% 以上;缓存会随着新的索引数据自动更新,不存在缓存延迟问题; ◇自动优化机制,在系统索引碎片较多时,系统会自动优化归并; ◆实现的是多线程搜索服务; ◇兼容当前所有厂商的数据库系统,其中 SQL Server, Oracle, MySQL,DB2等。 ◇支持 Windows/inux/ reeBSD等操作系统,支持C/C++/C#/Java 二次开发 12、 JzSearch精准搜索引擎性能测试 项目 参数 测试机器配置 ThinkPad x220i内存2G, Intel Core i3-2310MCPU (2.10GHz 2.10GHZ 测试数据 NLPIR新闻语料库(中文3,686,479KB吳文2,249,607KB) 使用内存 1GB i用 CPU 259 索引时问 1,115秒 索引速度 5.323KBs 搜索速度 <1秒可控制在亳秒级别 注:测试在个人使用的笔记本电脑运行,在服务器端的速度可以超过10MB/s 13、字段类型定义 类型名 类型值 说明 FIELD TYPE TEXI 文本类型 FIELD TYPE INT 整型 FIELD TYPE LONG 长整型(目前等同于 FIELD TYPE INT) 日期时间型(日前等同于 FIELD TYPE DATETIME FIELD TYPE INT) FIELD TYPE FLOAT 浮点型 JZSearch Copyright 2011 Kevin Zhang. All rights reserved 7/59 JZSearch manual www.nlpir r. org FIELD TYPE BIGTEXT 存储在大文件中 例如下 是否/是否 索引名称数据类型/需要需要|需要/是否需/每 是否 序数据库字段名 号称 索引情/通配要搞要/法 原文索引并红显/信 bigfilename@ offset@lengt 1he:语料库 contenl bigtexL1 0 资源\ corpus 新闻语料库 2 id text 0 stille Litle lext 4|ur1 url text 0 5 publishtime publish date lme click click ant 0 说明如卜: 数据库字段名:为数据库中的实际字段名称,必须一致,否则无法访问数据 库;如不访问数据库,该字段可以不设置 2.索引名:为后续检索的字段名称,由用户自定义,必须和提交搜索的名称 致,否则解析错误,无法正确搜索; 3.数据类型:支持数据库的常见格式,其中要求非字符型字段不用有索引,只用 于过滤或者存储;参见数据字段类型表; 4.是否需要索引:表示的是搜索系统在索引过程中是否保留原文,并在检索结 果中是否出现; 5.是否需要存储原文:存储在文件中,方便搜索结果显示该字段; 6.是否为通配符索引:在不指定字段名称进行统配搜索(搜索*)吋,是否覆 盖该字段。 7.是否需要摘要并红显:在结果显示时,需要对该字段进行动态摘要,并红显。 8. bigtext类型:主要解决大文件存储多个小文本的情况,适合于海量文本的处 理,对应数据库的时候,需要依次按照顺序指定如下信息: bigfilename@ offset@length@e:\语料库资源丶 corpus\浙闻语料库分别对应的 是大文件名,偏移量,文本內容长度即指定的文件路径名,中间采用“@”链 接 14、精准搜索排序策略 精准搜索引擎提供四种排序方式 JZSearch Copyright 2011 Kevin Zhang. All rights reserved 8/59 JZSearch manual www.nlpir 类型名 类型值 说明 按照 docid顺序排序,即先建索引的 docid 文档优先 relevance 按照相关度排序 按照dcid逆序排序,即后建索引的 reverse docid 3 文档优先 按照指定的数值型字段进行排序,同 <field name>> descend/ascend 4时可以指定从小到大,或者从大到小 (默认为从大到小) 二、通用篇ε五步配置搭建搜索服务 本篇介绍如何利用 JZSearch精准搜索引擎工具包,不进行程序定制开发,搭建一套针 对特定数据库的垂直搜索引擎服务。 21采用可视化界面配置(适用于 Windows安装包比较大, 需要可另外索取下载) 2L1.1、运行 star Bat出现初始界面,配置数据库信息 主机r:192.1681201 端口:30 用户名:rt 密码: 类型MaL 厍名称:数据库列 连接 JZSearch Copyright 2011 Kevin Zhang. All rights reserved 9/59 JZSearch manual www.nlpir.org 212、选择要建立索引的表,点击“执行”“创建索引” SCarch数运库检配置 开始考助 1r4 acIcct s Erom clint wc doc-nfo eint do=info report °emex1 督·1 nt tr aclc1ng 二孟五Lk山LM 00o0 ◆1x3.mu1tin:904 026:0,:回0 Lint wen sear chconf 026.:0:0 000000 026 026. 333831 创建索引 2.13、弹出如下界面:配置好字段信息:点“创建索引文件” 请入河图名称;41a 递增索引示识:id 幸引称 数捐型 安引 通西引计报張 id 数字索引 符串素引 insertin insertIve 不做处理 scarch id search_ id origin oriGIn 字符串索引 创建索引 JZSearch Copyright 2011 Kevin Zhang. All rights reserved 10/59

...展开详情
试读 59P 精准检索文档
立即下载 身份认证后 购VIP低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
  • 签到新秀

  • 分享宗师

关注 私信
上传资源赚钱or赚积分
最新推荐
精准检索文档 1积分/C币 立即下载
1/59
精准检索文档第1页
精准检索文档第2页
精准检索文档第3页
精准检索文档第4页
精准检索文档第5页
精准检索文档第6页
精准检索文档第7页
精准检索文档第8页
精准检索文档第9页
精准检索文档第10页
精准检索文档第11页
精准检索文档第12页

试读结束, 可继续读6页

1积分/C币 立即下载