Lucene：基于Java的全文检索引擎简介_java全文索引资源-CSDN文库

需积分: 17 148 浏览量 2019-07-02 13:36:43 上传评论收藏 589KB PDF 举报

资源详情

资源评论

Lucene是一个基于Java的全文索引工具包。
1.基于Java的全文索引引擎Lucene简介：关于作者和Lucene的历史
2.全文检索的实现：Luene全文索引和数据库索引的比较
3.中文切分词机制简介：基于词库和自动切分词算法的比较
4.具体的安装和使用简介：系统结构介绍和演示
5.HackingLucene：简化的查询分析器，删除的实现，定制的排序，应用接口的
扩展
6.从Lucene我们还可以学到什么
另外，如果是在选择全文引擎，现在也许是试试Sphinx的时候了：相比Lucene速度更快，
有中文分词的支持，而且内置了对简单的分布式检索的支持；
基于Java的全文索引/检索引擎——Lucene
Lucene不是一个完整的全文索引应用，而是是一个用Java写的全文索引引擎工具包，它可
以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。
Lucene的作者：Lucene的贡献者DougCutting是一位资深全文索引/检索专家，曾经是
VTwin搜索引擎(Apple的Copland操作系统的成就之一)的主要开发者，后在Excite担任
高级系统架构设计师，目前从事于一些INTERNET底层架构的研究。他贡献出的Lucene的
目标是为各种中小型应用程序加入全文检索功能。
Lucene的发展历程：早先发布在作者自己的www.lucene.com，后来发布在
SourceForge，2001年年底成为APACHE基金会jakarta的一个子项目：
http://jakarta.apache.org/lucene/
已经有很多Java项目都使用了Lucene作为其后台的全文索引引擎，比较著名的有：
Jive：WEB论坛系统；
Eyebrows：邮件列表HTML归档/浏览/查询系统，本文的主要参考文
档“TheLucenesearchengine:Powerful,flexible,andfree”作者就是
EyeBrows系统的主要开发者之一，而EyeBrows已经成为目前APACHE项目的主要
邮件列表归档系统。
Cocoon:基于XML的web发布框架，全文检索部分使用了Lucene
Eclipse:基于Java的开放开发平台，帮助部分的全文索引使用了Lucene
对于中文用户来说，最关心的问题是其是否支持中文的全文检索。但通过后面对于Lucene
的结构的介绍，你会了解到由于Lucene良好架构设计，对中文的支持只需对其语言词法分
析接口进行扩展就能实现对中文检索的支持。
全文检索的实现机制
Lucene的API接口设计的比较通用，输入输出结构都很像数据库的表==>记录==>字
段，所以很多传统的应用的文件、数据库等都可以比较方便的映射到Lucene的存储结构/接
口中。总体上看：可以先把Lucene当成一个支持全文索引的数据库系统。
比较一下Lucene和数据库：
Lucene 数据库
索引数据源：doc(field1,field2...)doc(field1,field2...)
\indexer/
_____________
索引数据源：record(field1,field2...)record(field1..)
\SQL:insert/
_____________

|LuceneIndex|

--------------

/searcher\

结果输出：Hits(doc(field1,field2)doc(field1...))

|DBIndex|

-------------

/SQL:select\

结果输出：results(record(field1,field2..)record(field1...))

Document：一个需要进行索引的“单元”

一个Document由多个字段组成

Record：记录，包含多个字段

Field：字段 Field：字段

Hits：查询结果集，由匹配的Document组成 RecordSet：查询结果集，由多个Record组成

全文检索≠like"%keyword%"

通常比较厚的书籍后面常常附关键词索引表（比如：北京：12,34页，上海：3,77

页……），它能够帮助读者比较快地找到相关内容的页码。而数据库索引能够大大提高查询

的速度原理也是一样，想像一下通过书后面的索引查找的速度要比一页一页地翻内容高多少

倍……而索引之所以效率高，另外一个原因是它是排好序的。对于检索系统来说核心是一个

排序问题。

由于数据库索引不是为全文索引设计的，因此，使用like"%keyword%"时，数据库索

引是不起作用的，在使用like查询时，搜索过程又变成类似于一页页翻书的遍历过程了，所

以对于含有模糊查询的数据库服务来说，LIKE对性能的危害是极大的。如果是需要对多个

关键词进行模糊匹配：like"%keyword1%"andlike"%keyword2%"...其效率也就可

想而知了。

所以建立一个高效检索系统的关键是建立一个类似于科技索引一样的反向索引机制，将数据

源（比如多篇文章）排序顺序存储的同时，有另外一个排好序的关键词列表，用于存储关键

词==>文章映射关系，利用这样的映射关系索引：[关键词==>出现关键词的文章编号，

出现次数（甚至包括位置：起始偏移量，结束偏移量），出现频率]，检索过程就是把模糊

查询变成多个可以利用索引的精确查询的逻辑组合的过程。从而大大提高了多关键词查询的

效率，所以，全文检索问题归结到最后是一个排序问题。

由此可以看出模糊查询相对数据库的精确查询是一个非常不确定的问题，这也是大部分数据

库对全文检索支持有限的原因。Lucene最核心的特征是通过特殊的索引结构实现了传统数

据库不擅长的全文索引机制，并提供了扩展接口，以方便针对不同应用的定制。

可以通过一下表格对比一下数据库的模糊查询：

　 Lucene全文索引引擎数据库

索引将数据源中的数据都通过全文索引一一建立反向索引

对于LIKE查询来说，数据传统的索引是根本用不

上的。数据需要逐个便利记录进行GREP式的模

糊匹配，比有索引的搜索速度要有多个数量级的

下降。

匹配效果

通过词元(term)进行匹配，通过语言分析接口的实现，可

以实现对中文等非英语的支持。

使用：like"%net%"会把netherlands也匹配出

来，

多个关键词的模糊匹配：使用like

"%com%net%"：就不能匹配词序颠倒的

xxx.net..xxx.com

匹配度

有匹配度算法，将匹配程度（相似度）比较高的结果排在

前面。

没有匹配程度的控制：比如有记录中net出现5词

和出现1次的，结果是一样的。

剩余10页未读，继续阅读

评论收藏

内容反馈

Lucene：基于Java的全文检索引擎简介

评论0

最新资源

Lucene：基于Java的全文检索引擎简介

评论0

最新资源

相关推荐

基于Java的全文检索引擎简介

基于Java的全文索引引擎Lucene

Java的全文检索实现

java全文搜索引擎 Lucene不是一个完整的全文索引应用,而是是一个用Java写的全文索引引擎工具包,它可以方便

纯Java全文检索

Lucene全文检索框架+Solr搜索引擎（2018版.Java)

SpringBoot+Lucene搜索结果高亮显示Demo

Sphinx基于SQL的全文检索引擎简介

lucene全文检索-javademo.rar

Lucene基于Java的全文检索引擎简介

精品资料（2021-2022收藏）Lucene：基于Java的全文检索引擎简介.docx

精品资料（2021-2022收藏）Lucene：基于Java的全文检索引擎简介.doc

精品资料（2021-2022收藏）Lucene：基于Java的全文检索引擎简介22173.doc

Lucene：基于Java的全文检索引擎简介.rar

全文检索工具

indexer4j-Java的简单全文索引和检索库

快速构建PHP全文检索——马明练

Lucene全文检索引擎

lucene：基于Java的全文检索引擎简介

Lucene基于java的全文搜索引擎简介.pdf

人工智能-项目实践-检索系统-基于lucene全文检索引擎实现的短文本匹配系统