Lucene原理与代码分析完整版.pdf资源-CSDN文库

4星 · 超过85%的资源需积分: 31 170 浏览量 2012-08-12 10:25:46 上传评论 1 收藏 4.73MB PDF 举报

第一篇：原理篇 ............................................................................................................................... 9 第一章：全文检索的基本原理 ..................................................................................................... 10 一、总论........................................................................................................................................ 10 二、索引里面究竟存些什么 ......................................................................................................... 13 三、如何创建索引 ......................................................................................................................... 14 第一步：一些要索引的原文档(Document)。...................................................................... 14 第二步：将原文档传给分次组件(Tokenizer)。 ................................................................... 14 第三步：将得到的词元(Token)传给语言处理组件(Linguistic Processor)。 ....................... 15 第四步：将得到的词(Term)传给索引组件(Indexer)。 ........................................................ 16 1. 利用得到的词(Term)创建一个字典。 ..................................................................... 16 2. 对字典按字母顺序进行排序。 ................................................................................ 17 3. 合并相同的词(Term)成为文档倒排(Posting List)链表。 ......................................... 18 四、如何对索引进行搜索？ ......................................................................................................... 20 第一步：用户输入查询语句。 ............................................................................................. 2 ### Lucene原理与代码分析概览 #### 全文检索的基本原理全文检索技术的核心在于构建和维护一个索引库，使得用户能够通过输入关键词快速地找到与之相关的文档。在这一过程中，Lucene作为一款高性能的全文检索库，其设计理念和技术实现值得深入探讨。 #### 总论全文检索系统主要包括两大核心部分：**索引创建**和**索引搜索**。索引创建是指从原始文档中提取信息，并将其组织成易于检索的形式；索引搜索则是指根据用户的查询条件，在已构建好的索引中查找匹配项。 #### 索引里面究竟存些什么？索引通常包含以下几个关键元素： 1. **词典**：存储了所有文档中出现过的词及其相关信息。 2. **文档倒排列表(Posting List)**：记录了每个词在哪些文档中出现过，以及在文档中的位置等信息。 3. **文档元数据**：包括文档ID、大小、创建时间等基本信息。 4. **词向量**：如果启用了词向量功能，会存储每个词在每个文档中的出现位置。 #### 如何创建索引？索引创建过程可以分为四个主要步骤： 1. **准备原始文档**：这些文档是索引的基础。 2. **分词(Tokenization)**：将文档分解为更小的语言单位——词元(Token)。 3. **语言处理**：对词元进行进一步处理，例如去除停用词、词干提取等。 4. **索引化**：将处理后的词元转化为索引结构。 ##### 分词将原始文档传递给分词器(Tokenizer)，这个组件负责将文本分解成一系列词元。例如，“今天天气很好”可能被分解为“今天”、“天气”和“很好”。 ##### 语言处理将分词器产生的词元传递给语言处理组件(Linguistic Processor)。这一步骤包括但不限于： - **去除停用词**：例如“的”、“是”等常见词汇，它们通常不会提供太多信息价值。 - **词干提取**：例如将“running”转换为“run”。 - **词形还原**：例如将“flies”转换为“fly”。 ##### 索引化将处理后的词元传递给索引组件(Indexer)进行索引化。此步骤包括： 1. **创建字典**：根据处理后的词元构建词典。 2. **排序字典**：对词典中的词按字母顺序排序。 3. **构建文档倒排列表**：对于每个词，记录它出现在哪些文档中，以及在文档中的具体位置。 #### 如何对索引进行搜索？索引搜索过程通常涉及以下步骤： 1. **用户输入查询语句**：用户可以通过输入关键词来进行查询。 2. **词法分析**：解析查询语句，识别出其中的关键字。 3. **语法分析**：基于查询语句的语法结构构建语法树。 4. **语言处理**：对查询语句中的词汇进行处理，例如去除停用词、词干提取等。 5. **搜索索引**：在索引中查找与查询语句相匹配的文档。 6. **相关性评分**：根据文档与查询语句的相关程度对结果进行排序。 #### 计算权重和相关性 - **计算权重**：对于索引中的每个词，计算其在文档中的重要性，通常采用TF-IDF等方法。 - **文档相关性**：通过比较文档与查询语句之间的相似度来确定文档的相关性。 #### Lucene的总体架构 Lucene的整体架构包括以下几个核心组件： - **索引**：用于存储文档信息。 - **查询解析器**：处理用户输入的查询语句。 - **搜索器**：执行实际的索引搜索操作。 - **分析器**：负责文档和查询语句的分词和语言处理。 #### Lucene的索引文件格式 Lucene使用的索引文件格式包括正向信息和反向信息两大部分： - **正向信息**：如段的元数据信息、域(Field)的元数据信息和数据信息等。 - **反向信息**：如词典信息、文档号及词频信息、词位置信息等。 - **其他信息**：如规范化因子文件(nrm)和删除文档文件(del)等。 #### Lucene索引过程分析 - **创建IndexWriter对象**：负责管理索引的写入操作。 - **创建文档Document对象**：封装文档内容。 - **将文档加入IndexWriter**：提交文档到索引中。 - **索引缓存管理**：管理各种缓存池，提高索引效率。 - **关闭IndexWriter对象**：完成索引操作，释放资源。 #### 段合并(merge)过程分析 - **合并策略**：决定何时合并多个较小的索引段。 - **反向信息的合并**：如何高效地合并多个索引段中的反向信息。 - **段合并的详细过程**：包括缓存内容的写入、新段信息的生成等步骤。 Lucene不仅提供了强大的全文检索功能，还在索引构建和搜索优化方面有着非常细致的设计和实现。通过对上述内容的深入了解，开发者可以更好地利用Lucene来构建高效的全文检索系统。

资源推荐

资源详情

资源评论

Lucene 原理与代码分析

原理与代码分析原理与代码分析

原理与代码分析

觉先

觉先觉先

觉先

(forfuture1978)

博客

博客博客

博客：

：：

：

http://blog.csdn.net/forfuture1978

http://www.cnblogs.com/forfuture1978/

http://forfuture1978.javaeye.com/

邮箱

邮箱邮箱

邮箱：

：：

：

forfuture1978@gmail.com

目录 .................................................................................................................................................. 2

第一篇：原理篇 ............................................................................................................................... 9

第一章：全文检索的基本原理 ..................................................................................................... 10

一、总论......................................................................................................................................... 10

二、索引里面究竟存些什么 ......................................................................................................... 13

三、如何创建索引 ......................................................................................................................... 14

第一步：一些要索引的原文档(Document)。...................................................................... 14

第二步：将原文档传给分次组件(Tokenizer)。 ................................................................... 14

第三步：将得到的词元(Token)传给语言处理组件(Linguistic Processor)。 ....................... 15

第四步：将得到的词(Term)传给索引组件(Indexer)。 ........................................................ 16

1. 利用得到的词(Term)创建一个字典。 ..................................................................... 16

2. 对字典按字母顺序进行排序。 ................................................................................ 17

3. 合并相同的词(Term)成为文档倒排(Posting List)链表。 ......................................... 18

四、如何对索引进行搜索？ ......................................................................................................... 20

第一步：用户输入查询语句。 ............................................................................................. 21

第二步：对查询语句进行词法分析，语法分析，及语言处理。 ..................................... 21

1. 词法分析主要用来识别单词和关键字。 ................................................................ 21

2. 语法分析主要是根据查询语句的语法规则来形成一棵语法树。 ........................ 21

3. 语言处理同索引过程中的语言处理几乎相同。 .................................................... 22

第三步：搜索索引，得到符合语法树的文档。 ................................................................. 22

第四步：根据得到的文档和查询语句的相关性，对结果进行排序。 ............................. 23

1. 计算权重(Term weight)的过程。 ............................................................................. 24

2. 判断 Term 之间的关系从而得到文档相关性的过程，也即向量空间模型的算法

(VSM)。 ........................................................................................................................... 25

第二章：Lucene 的总体架构 ........................................................................................................ 29

第二篇：代码分析篇 ..................................................................................................................... 34

第三章：Lucene 的索引文件格式 ................................................................................................ 35

一、基本概念 ................................................................................................................................. 35

二、基本类型 ................................................................................................................................. 38

三、基本规则 ................................................................................................................................. 39

1. 前缀后缀规则(Prefix+Suffix) ............................................................................................. 39

2. 差值规则(Delta) ................................................................................................................. 40

3. 或然跟随规则(A, B?) ......................................................................................................... 41

4. 跳跃表规则(Skip list) ......................................................................................................... 42

四、具体格式 ................................................................................................................................. 44

4.1. 正向信息......................................................................................................................... 44

4.1.1. 段的元数据信息(segments_N) ........................................................................... 44

4.1.2. 域(Field)的元数据信息(.fnm) ............................................................................. 60

4.1.3. 域(Field)的数据信息(.fdt，.fdx) .......................................................................... 66

4.1.3. 词向量(Term Vector)的数据信息(.tvx，.tvd，.tvf) ............................................ 69

4.2. 反向信息......................................................................................................................... 72

4.2.1. 词典(tis)及词典索引(tii)信息 .............................................................................. 72

4.2.2. 文档号及词频(frq)信息 ....................................................................................... 74

4.2.3. 词位置(prx)信息 .................................................................................................. 78

4.3. 其他信息......................................................................................................................... 79

4.3.1. 标准化因子文件(nrm) ......................................................................................... 79

4.3.2. 删除文档文件(del) .............................................................................................. 81

五、总体结构 ................................................................................................................................. 82

第四章：Lucene 索引过程分析 .................................................................................................... 84

一、索引过程体系结构 ................................................................................................................. 84

二、详细索引过程 ......................................................................................................................... 86

1、创建 IndexWriter 对象 ..................................................................................................... 86

2、创建文档 Document 对象，并加入域(Field) ................................................................ 100

3、将文档加入 IndexWriter ................................................................................................ 103

4、将文档加入 DocumentsWriter ....................................................................................... 103

4.1、得到当前线程对应的文档集处理对象(DocumentsWriterThreadState) ........... 111

4.2、用得到的文档集处理对象(DocumentsWriterThreadState)处理文档 ............... 113

4.3、用 DocumentsWriter.finishDocument 结束本次文档添加 ................................. 132

5、DocumentsWriter 对 CharBlockPool，ByteBlockPool，IntBlockPool 的缓存管理 ....... 132

6、关闭 IndexWriter 对象 ................................................................................................... 146

6.1、得到要写入的段名 .............................................................................................. 147

6.2、将缓存的内容写入段 .......................................................................................... 148

6.3、生成新的段信息对象 .......................................................................................... 169

6.4、准备删除文档 ...................................................................................................... 169

6.5、生成 cfs 段 ........................................................................................................... 169

6.6、删除文档 .............................................................................................................. 170

第五章：Lucene 段合并(merge)过程分析 ................................................................................. 174

一、段合并过程总论 ................................................................................................................... 174

1.1、合并策略对段的选择 .................................................................................................. 175

1.2、反向信息的合并 .......................................................................................................... 182

二、段合并的详细过程 ............................................................................................................... 191

2.1、将缓存写入新的段 ...................................................................................................... 191

2.2、选择合并段，生成合并任务 ...................................................................................... 192

2.2.1、用合并策略选择合并段 ................................................................................... 192

2.2.2、注册段合并任务 ............................................................................................... 198

2.3、段合并器进行段合并 .................................................................................................. 199

2.3.1、合并存储域 ....................................................................................................... 201

2.3.2、合并标准化因子 ............................................................................................... 206

2.3.3、合并词向量 ....................................................................................................... 207

2.3.4、合并词典和倒排表 ........................................................................................... 210

第六章：Lucene 打分公式的数学推导 ...................................................................................... 216

第七章：Lucene 搜索过程解析 .................................................................................................. 222

一、Lucene 搜索过程总论 .......................................................................................................... 222

二、Lucene 搜索详细过程 .......................................................................................................... 223

2.1、打开 IndexReader 指向索引文件夹............................................................................ 223

2.1.1、找到最新的 segment_N 文件 .......................................................................... 223

2.1.2、通过 segment_N 文件中保存的各个段的信息打开各个段 .......................... 225

2.1.3、得到的 IndexReader 对象如下 ........................................................................ 228

2.2、打开 IndexSearcher ...................................................................................................... 236

2.3、QueryParser 解析查询语句生成查询对象 ................................................................. 237

2.4、搜索查询对象 .............................................................................................................. 242

2.4.1、创建 Weight 对象树，计算 Term Weight ........................................................ 243

2.4.2、创建 Scorer 及 SumScorer 对象树 ................................................................... 268

2.4.3、进行倒排表合并 ............................................................................................... 288

2.4.4、收集文档结果集合及计算打分 ....................................................................... 318

2.4.5、Lucene 如何在搜索阶段读取索引信息 .......................................................... 324

第八章：Lucene 的查询语法，JavaCC 及 QueryParser ............................................................. 330

一、Lucene 的查询语法 .............................................................................................................. 330

二、JavaCC 介绍........................................................................................................................... 332

2.1、第一个实例——正整数相加 ...................................................................................... 334

2.2、扩展语法分析器 .......................................................................................................... 339

2.3、第二个实例：计算器 .................................................................................................. 344

三、解析 QueryParser.jj ............................................................................................................... 357

3.1、声明 QueryParser 类 ................................................................................................... 357

3.2、声明词法分析器 .......................................................................................................... 357

3.3、声明语法分析器 .......................................................................................................... 360

第九章：Lucene 的查询对象 ...................................................................................................... 376

1、BoostingQuery ........................................................................................................................ 376

2、CustomScoreQuery ................................................................................................................. 381

3、MoreLikeThisQuery ................................................................................................................. 385

4、MultiTermQuery ...................................................................................................................... 394

4.1、TermRangeQuery ......................................................................................................... 394

剩余526页未读，继续阅读

评论收藏

内容反馈

ehtnicayh

2015-06-20

非常感谢免费分享。内容完整。

shang674544686

粉丝: 6
资源: 5

Lucene 原理与代码分析完整版.pdf

最新资源

Lucene 原理与代码分析完整版.pdf

Lucene 原理与代码分析.pdf

Lucene原理与代码分析完整版

lucene原理与代码分析完整版

Lucene 原理与代码分析完整版

Lucene_原理与代码分析完整版

Lucene 原理与代码分析完整版.MOBI

( Lucene 原理与代码分析完整版.PDF)

Lucene原理与代码分析完整版以及找的一些资料

Lucene+3.0+原理与代码分析完整版

开放源代码的全文检索引擎_Lucene参考.pdf

Lucene 3.0完成入门

开发自己的搜索引擎——Lucene+Heritrix(第2版)_含书(PDF)和光盘

lucene.net2.9.1-2.9.2及相关学习资料

Lucene 3.0 原理

软件开发者最重要的四大技能

中英文版 lucene in action （pdf 版，附随书源码）

Lucene实战（中文版第二版）对应Lucene版本

若干vc代码1352.rar

lucene实战第二版（最新）

搜索引擎Lucene+Heritrix(第二版)4

Lucene in action 中文版

开发自己的搜索引擎lucene and heritrix

lucene-6.5.0工具包

搜索引擎Lucene+Heritrix(第二版)6

最新资源