3
第二篇:代码分析篇 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ................................................................... 34
第三章:Lucene 的索引文件格式 ................................................................................................ 35
一、基本概念 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ............................................................................... 35
二、基本类型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ............................................................................... 38
三、基本规则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ............................................................................... 39
1. 前缀后缀规则(Prefix+Suffix) ............................................................................................. 39
2. 差值规则(Delta) ................................................................................................................. 40
3. 或然跟随规则(A, B?) ......................................................................................................... 41
4. 跳跃表规则(Skip list) ......................................................................................................... 42
四、具体格式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ............................................................................... 44
4.1. 正向信息......................................................................................................................... 44
4.1.1. 段的元数据信息(segments_N) ........................................................................... 44
4.1.2. 域(Field)的元数据信息(.fnm) ............................................................................. 60
4.1.3. 域(Field)的数据信息(.fdt,.fdx) .......................................................................... 66
4.1.3. 词向量(Term Vector)的数据信息(.tvx,.tvd,.tvf) ............................................ 69
4.2. 反向信息......................................................................................................................... 72
4.2.1. 词典(tis)及词典索引(tii)信息 . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ............................ 72
4.2.2. 文档号及词频(frq)信息 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ..................................... 74
4.2.3. 词位置(prx)信息 . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . ................................................ 78
4.3. 其他信息......................................................................................................................... 79
4.3.1. 标准化因子文件(nrm) ......................................................................................... 79
4.3.2. 删除文档文件(del) .............................................................................................. 81
五、总体结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ............................................................................... 82
第四章:Lucene 索引过程分析 .................................................................................................... 84
一、索引过程体系结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ............................................................... 84
二、详细索引过程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....................................................................... 86
1、创建 IndexWriter 对象 ..................................................................................................... 8 6
2、创建文档 Document 对象,并加入域(Field) ................................................................ 100
3、将文档加入 IndexWriter ................................................................................................ 103
评论0
最新资源