简单搜索引擎分析与实现
3
目 录
第一章 绪论................................................................................................................ 5
第一节 开发背景 ................................................................................................. 5
第二节 研究现状 ................................................................................................. 5
第三节 搜索引擎的发展 ..................................................................................... 6
第二章 总体设计 .......................................................................................................... 8
第一节 可行性研究 ............................................................................................... 8
一、 问题的定义 ............................................................................................ 8
二、 技术可行性 ............................................................................................ 8
1、信息收集和存储技术 ........................................................................ 8
2、信息预处理技术 ................................................................................ 8
3、信息索引技术和搜索技术 ................................................................ 9
三、 开发工具 ................................................................................................ 9
第二节 需求分析 ................................................................................................. 9
一、系统基本功能 ........................................................................................ 10
二、系统模块组成 ........................................................................................ 10
1、网络爬虫模块 .................................................................................. 10
2、索引模块 .......................................................................................... 10
3、搜索模块 .......................................................................................... 10
4、用户接口 .......................................................................................... 11
第三章 功能实现 .................................................................................................... 11
第一节 模块详解 ............................................................................................... 11
一、网络爬虫模块 ........................................................................................ 11
1、配置 Heritrix ................................................................................. 11
2、定制定向爬虫 .................................................................................. 12
3、创建一个新的抓抓取任务 .............................................................. 13
4、镜像方式存储 .................................................................................. 16
5、网页预处理 ...................................................................................... 16
二、搜索引擎实现模块 ................................................................................ 19
1、整体架构 .......................................................................................... 19
2、用户接口 .......................................................................................... 20
3、请求 servlet ................................................................................... 21
4、搜索器 .............................................................................................. 24
5、索引器 .............................................................................................. 24
第四章 部署运行 ...................................................................................................... 25
第一节、运行环境 ............................................................................................... 25
第二节、运行效果 ............................................................................................... 26
第五章 技术难点分析 .............................................................................................. 28
第一节 中文分词 ............................................................................................... 28
一、什么是中文分词 .................................................................................... 28
二、中文分词和搜索引擎 ............................................................................ 28
三、中文分词技术 ........................................................................................ 28
四、 Lucene3.0中的几种分词系统 .............................................................. 30
第二节 使用中文分词 ....................................................................................... 32