没有合适的资源?快使用搜索试试~ 我知道了~
Lucene是一个高效的全文检索工具包,本文主要研究了Lucene的体系架构及其在中文检索上的应用。通过对基于最大匹配算法的中文分词器的设计与改进,并引入文本解析器与构建同义词词库引擎,使得Lucene对中文的检索更加个性化。通过检索结果的对比表明,改进后的中文分词器对检索功能的扩展有了极大的提高。并最终构建出了一个高效的中文全文检索系统。
资源推荐
资源详情
资源评论
基于基于Lucene的中文分词器的改进与实现的中文分词器的改进与实现
Lucene是一个高效的全文检索工具包,本文主要研究了Lucene的体系架构及其在中文检索上的应用。通过对基
于最大匹配算法的中文分词器的设计与改进,并引入文本解析器与构建同义词词库引擎,使得Lucene对中文的
检索更加个性化。通过检索结果的对比表明,改进后的中文分词器对检索功能的扩展有了极大的提高。并最终
构建出了一个高效的中文全文检索系统。
罗惠峰,郭淑琴
(浙江工业大学 信息工程学院,浙江 杭州 310023)
摘摘 要要: Lucene是一个高效的
关键词关键词: 全文检索;中文分词器;文本解析器;最大匹配算法(MMSEG)
0 引言引言
随着网络的发展和数据存储技术的成熟,如何在大量的数据中快速、准确地获取到我们所需要的信息成为一个亟待解决的
问题,也是信息检索技术的核心问题。
信息检索的核心是全文检索技术,全文检索是指以各种计算机数据诸如文字、声音、图像等为处理对象,提供按照数据资
料的内容而不是外在特征来实现的信息检索手段。当前对全文数据的检索主要有两种方法:顺序扫描法(Serial Scanning)和
倒排索引法(Inverted Index)。前者较为原始,对于小数量的数据是最直接和最方便的方法;但随着数据量的增多,倒排索
引法具有更快的检索速度和更全的应用范围[1]。Lucene并不是一个完整的搜索引擎应用,而是一个开放源代码的高性能、可
伸缩的信息搜索库,可以方便地嵌入到各种应用中,实现针对应用的全文索引/检索功能,并且已经在许多搜索项目中得到了
广泛的应用[2]。
中文分词技术作为信息检索的核心技术之一,它的研究与发展促进了全文检索技术的应用。本文主要研究了中文分词的最
大匹配算法,并通过该算法对原始中文分词器进行了改进,改进后的分词器更加适用于中文条件下的搜索。
1 Lucene架构及简介架构及简介
图1描述了基于Lucene的全文检索过程,Lucene对索引的创建和搜索是通过不同的流程来实现。创建索引时,需要通过
文件、数据库、Web或人工输入方式来对数据进行采集;其次则需要建立索引的Document,一条Document就类似于数据库
的一条记录[3];最后通过这些Document来生成索引。搜索索引时,首先通过用户查询得到用户的查询条件,然后Lucene通过
查询条件对索引进行搜索,并将最终经过一定规则排序后的结果返回给用户。目前常见的搜索引擎排序算法有Direct Hit排序
算法、PageRank算法、排名竞价服务和词频位置加权算法[4]。
图2为Lucene的逻辑架构图。由图2可以看出Lucene索引和检索时各个模块间的调用关系:当索引文件时,接口模块会先
资源评论
weixin_38643212
- 粉丝: 3
- 资源: 931
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- apache-maven-3.6.1-bin.zip
- c593f5fc-d4a7-4b43-8ab2-51afc90f3f62
- IIR滤波器参数计算函数
- WPF树菜单拖拽功能,下级目录拖到上级目录,上级目录拖到下级目录.zip
- CDH6.3.2版本hive2.1.1修复HIVE-14706后的jar包
- 鸿蒙项目实战-天气项目(当前城市天气、温度、湿度,24h天气,未来七天天气预报,生活指数,城市选择等)
- Linux环境下oracle数据库服务器配置中文最新版本
- Linux操作系统中Oracle11g数据库安装步骤详细图解中文最新版本
- SMA中心接触件插合力量(插入力及分离力)仿真
- 变色龙记事本,有NPP功能,JSONview功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功