搜索引擎开发入门的经典书籍 目 录 前言 第一章 引论................................................................................................................. 1 第一节 搜索引擎的概念................................................................................................ 2 第二节 搜索引擎的发展历史........................................................................................ 3 第三节 一些著名的搜索引擎........................................................................................ 7 上篇 WEB搜索引擎基本原理和技术.................................................................... 16 第二章 WEB搜索引擎工作原理和体系结构.......................................................... 17 第一节 基本要求.......................................................................................................... 17 第二节 网页搜集.......................................................................................................... 18 第三节 预处理.............................................................................................................. 20 第四节 查询服务.......................................................................................................... 22 第五节 体系结构.......................................................................................................... 25 第三章 WEB信息的搜集.......................................................................................... 29 第一节 引言.................................................................................................................. 29 一、 超文本传输协议.............................................................................................. 29 二、 一个小型搜索引擎系统.................................................................................. 31 第二节 网页搜集.......................................................................................................... 33 一、 定义URL类和Page类...................................................................................... 34 二、 与服务器建立连接.......................................................................................... 39 三、 发送请求和接收数据...................................................................................... 41 四、 网页信息存储的天网格式.............................................................................. 42 第三节 多道搜集程序并行工作.................................................................................. 45 一、 多线程并发工作.............................................................................................. 46 二、 控制对一个站点并发搜集线程的数目.......................................................... 47 第四节 如何避免网页的重复搜集.............................................................................. 47 一、 记录未访问、已访问URL和网页内容摘要信息.......................................... 47 二、 域名与IP的对应问题...................................................................................... 48 第五节 如何首先搜集重要的网页.............................................................................. 49 第六节 搜集信息的类型.............................................................................................. 52 第七节 本章小结.......................................................................................................... 54 iii 第四章 对搜集信息的预处理................................................................................... 55 第一节 信息预处理的系统结构.................................................................................. 55 第二节 索引网页库...................................................................................................... 56 第三节 中文自动分词.................................................................................................. 58 第四节 分析网页和建立倒排文件.............................................................................. 64 第五节 本章小结.......................................................................................................... 66 第五章 信息查询服务............................................................................................... 67 第一节 查询服务的系统结构...................................................................................... 67 第二节 检索的定义...................................................................................................... 68 第三节 查询服务的实现.............................................................................................. 69 一、 结果集合的形成.............................................................................................. 69 二、 查询结果显示................................................................................................. 70 第四节 本章小结.......................................................................................................... 72 中篇 对质量和性能的追求..................................................................................... 73 第六章 可扩展搜集子系统....................................................................................... 75 第一节 天网系统概述和集中式搜集系统结构........................................................... 75 一、 天网系统结构................................................................................................. 75 二、 集中式搜集系统.............................................................................................. 76 第二节 利用并行处理技术高效搜集网页的一种方案............................................... 82 一、 节点间URL的划分策略.................................................................................. 83 二、 关于性能的讨论.............................................................................................. 86 三、 性能测试和评价.............................................................................................. 88 四、 系统的动态可配置性设计.............................................................................. 91 第三节 本章小结.......................................................................................................... 93 第七章 网页净化与消重........................................................................................... 95 第一节 网页净化与元数据提取.................................................................................. 95 一、 引言................................................................................................................. 95 二、 DocView模型.................................................................................................. 98 三、 网页的表示..................................................................................................... 99 四、 提取DocView模型要素的方法..................................................................... 103 五、 模型应用及实验研究.................................................................................... 108 第二节 网页消重算法................................................................................................ 112 一、 消重算法....................................................................................................... 112 iv 二、 算法评测....................................................................................................... 115 第八章 高性能检索子系统..................................................................................... 120 第一节 检索系统基本技术........................................................................................ 121 一、 系统设计与结构............................................................................................ 121 二、 索引创建....................................................................................................... 124 三、 检索过程....................................................................................................... 126 第二节 倒排文件性能模型........................................................................................ 127 一、 引言............................................................................................................... 128 二、 倒排文件的概念............................................................................................ 129 三、 倒排文件的一种性能模型............................................................................ 131 四、 结合计算机性能指标的考虑........................................................................ 136 第三节 混合索引技术................................................................................................ 138 一、 引言............................................................................................................... 138 二、 混合索引原理............................................................................................... 139 三、 混合索引实现............................................................................................... 141 第四节 倒排文件缓存机制........................................................................................ 144 一、 引言............................................................................................................... 144 二、 倒排文件缓存............................................................................................... 145 三、 负载特性....................................................................................................... 147 四、 缓存策略的选择............................................................................................ 149 第五节 本章小结........................................................................................................ 149 第九章 用户行为的特征及缓存的应用................................................................. 151 第一节 用户查询与点击日志.................................................................................... 152 第二节 用户行为特征的统计分析............................................................................ 154 一、 用户查询词的分布情况................................................................................ 154 二、 雷同查询词的衰减统计................................................................................ 155 三、 相邻N项查询词的偏差分析......................................................................... 156 四、 用户在输出结果中的翻页情况统计............................................................ 158 五、 用户点击URL的分布情况............................................................................ 159 六、 考虑与不考虑查询项时点击URL分布的对比分析.................................... 160 七、 查询过程的自相似性.................................................................................... 161 第三节 查询缓存的使用............................................................................................ 164 一、 基于用户行为的启示.................................................................................... 164 二、 缓存替换策略研究........................................................................................ 165 v 第四节 用户行为与WEB信息的分布特征................................................................. 167 一、 基本术语....................................................................................................... 167 二、 海量Web信息的特征分析............................................................................. 168 第十章 相关排序与系统质量评估......................................................................... 173 第一节 传统IR的相关排序技术................................................................................ 173 第二节 链接分析与相关排序.................................................................................... 176 一、 链接分析....................................................................................................... 176 二、 Web查询模式下的新信息............................................................................ 178 第三节 相关排序的一种实现方案............................................................................ 182 一、 形成网页中词项的基本权重........................................................................ 183 二、 利用链接的结构............................................................................................ 185 三、 收集用户反馈信息........................................................................................ 187 四、 计算最终的权重............................................................................................ 189 第四节 搜索引擎系统质量评估................................................................................ 191 一、 引言............................................................................................................... 191 二、 查询类别分析与查询集的构建.................................................................... 192 三、 评估实验的建立与分析................................................................................ 193 下篇 面向主题和个性化的WEB信息服务.......................................................... 196 第十一章 中文网页自动分类技术......................................................................... 197 第一节 引言................................................................................................................ 197 第二节 文档自动分类算法的类型............................................................................ 197 第三节 实现中文网页自动分类的一般过程............................................................. 199 第四节 影响分类器性能的关键因素分析................................................................. 201 一、 实验设置....................................................................................................... 201 二、 训练样本....................................................................................................... 202 三、 特征选取....................................................................................................... 207 四、 分类算法....................................................................................................... 210 五、 截尾算法....................................................................................................... 216 六、 一个中文网页分类器的设计方案................................................................ 218 第五节 天网目录导航服务........................................................................................ 219 一、 问题的提出................................................................................................... 219 二、 天网目录导航服务的体系结构.................................................................... 220 三、 天网目录的运行实例.................................................................................... 221 第六节 本章小结........................................................................................................ 221 vi 第十二章 搜索引擎个性化查询服务..................................................................... 223 第一节 基于WEB挖掘的个性化技术......................................................................... 223 一、 Web挖掘技术................................................................................................ 224 二、 典型个性化Web服务系统的比较................................................................. 225 三、 基于Web挖掘的个性化技术的发展............................................................. 226 第二节 天网知名度系统............................................................................................ 227 一、 系统结构....................................................................................................... 227 二、 网页与命名实体的相关度评价.................................................................... 231 第十三章 面向主题的信息搜集与应用................................................................. 235 第一节 主题信息的搜集............................................................................................ 235 一、 主题信息分布的局部性................................................................................ 235 二、 一种主题信息搜集系统................................................................................ 236 第二节 主题信息的一种搜集与处理模型及其应用................................................. 238 一、 模型设计....................................................................................................... 238 二、 应用实验:以“十六大”为主题................................................................ 242 三、 总结与讨论................................................................................................... 244 参考文献................................................................................................................... 245 附录. 术语................................................................................................................ 256 后记........................................................................................................................... 264
- 冬冬咚咚咚2016-04-11感觉还行,只是感觉用着不是特别顺手.
- skpic2014-06-26不错的一本书
- 粉丝: 1
- 资源: 35
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- #P0015. 全排列 超级简单
- pta题库答案c语言之排序4统计工龄.zip
- pta题库答案c语言之树结构7堆中的路径.zip
- pta题库答案c语言之树结构3TreeTraversalsAgain.zip
- pta题库答案c语言之树结构2ListLeaves.zip
- pta题库答案c语言之树结构1树的同构.zip
- 基于C++实现民航飞行与地图简易管理系统可执行程序+说明+详细注释.zip
- pta题库答案c语言之复杂度1最大子列和问题.zip
- 三维装箱问题(Three-Dimensional Bin Packing Problem,3D-BPP)是一个经典的组合优化问题
- 以下是一些关于Linux线程同步的基本概念和方法.txt