3
第二篇:代码分析篇 ..................................................................................................................... 34
第三章:Lucene 的索引文件格式 ................................................................................................ 35
一、基本概念 ................................................................................................................................. 35
二、基本类型 ................................................................................................................................. 38
三、基本规则 ................................................................................................................................. 39
1. 前缀后缀规则(Prefix+Suffix) ............................................................................................. 39
2. 差值规则(Delta) ................................................................................................................. 40
3. 或然跟随规则(A, B?) ......................................................................................................... 41
4. 跳跃表规则(Skip list) ......................................................................................................... 42
四、具体格式 ................................................................................................................................. 44
4.1. 正向信息......................................................................................................................... 44
4.1.1. 段的元数据信息(segments_N) ........................................................................... 44
4.1.2. 域(Field)的元数据信息(.fnm) ............................................................................. 60
4.1.3. 域(Field)的数据信息(.fdt,.fdx) .......................................................................... 66
4.1.3. 词向量(Term Vector)的数据信息(.tvx,.tvd,.tvf) ............................................ 69
4.2. 反向信息......................................................................................................................... 72
4.2.1. 词典(tis)及词典索引(tii)信息 .............................................................................. 72
4.2.2. 文档号及词频(frq)信息 ....................................................................................... 74
4.2.3. 词位置(prx)信息 .................................................................................................. 78
4.3. 其他信息......................................................................................................................... 79
4.3.1. 标准化因子文件(nrm) ......................................................................................... 79
4.3.2. 删除文档文件(del) .............................................................................................. 81
五、总体结构 ................................................................................................................................. 82
第四章:Lucene 索引过程分析 .................................................................................................... 84
一、索引过程体系结构 ................................................................................................................. 84
二、详细索引过程 ......................................................................................................................... 86
1、创建 IndexWriter 对象 ..................................................................................................... 86
2、创建文档 Document 对象,并加入域(Field) ................................................................ 100
3、将文档加入 IndexWriter ................................................................................................ 103
评论0
最新资源