img
share 分享

VIP会员

作者:CSDN

出版社:CSDN《程序员》

ISBN:1111111111117

VIP会员免费 (仅需0.8元/天) ¥ 40000.0

温馨提示: 价值40000元的1000本电子书,VIP会员随意看哦!

电子书推荐

更多资源 展开

这就是搜索引擎-核心技术详解.pdf 评分:

内容简介编辑 搜索引擎作为互联网发展中至关重要的一种应用,已经成为互联网各个领域的制高点,其重要性不言而喻。搜索引擎领域也是互联网应用中不多见的以核心技术作为其命脉的领域,搜索引擎各个子系统是如何设计的?这成为广大技术人员和搜索引擎优化人员密切关注的内容。 本书的最大特点是内容新颖全面而又通俗易懂。对于实际搜索引擎所涉及的各种核心技术都有全面细致的介绍,除了作为搜索系统核心的网络爬虫、索引系统、排序系统、链接分析及用户分析外,还包括网页反作弊、缓存管理、网页去重技术等实际搜索引擎必须关注的技术,同时用相当大的篇幅讲解了云计算与云存储的核心技术原理。另外,本书也密切关注搜索引擎发展的前沿技术:Google的咖啡因系统及Megastore等云计算新技术、百度的暗网抓取技术阿拉丁计划、内容农场作弊、机器学习排序等。诸多新技术在相关章节都有详细讲解,同时对于社会化搜索、实时搜索及情境搜索等搜索引擎的未来发展方向做了技术展望。为了增进读者的理解,全书大量引入形象的图片来讲解算法原理,相信读者会发现原来搜索引擎的核心技术理解起来比原先想象的要简单得多。[1-2] 目录编辑 目 录 第1章 搜索引擎及其技术架构 1 1.1 搜索引擎为何重要 1 1.1.1 互联网的发展 1 1.1.2 商业搜索引擎公司的发展 3 1.1.3 搜索引擎的重要地位 3 1.2 搜索引擎技术发展史 4 1.2.1 史前时代:分类目录的一代 4 1.2.2 第一代:文本检索的一代 5 1.2.3 第二代:链接分析的一代 5 1.2.4 第三代:用户中心的一代 5 1.3 搜索引擎的3个目标 6 1.4 搜索引擎的3个核心问题 7 1.4.1 3个核心问题 7 1.4.2 与技术发展的关系 8 1.5 搜索引擎的技术架构 9 第2章 网络爬虫 12 2.1 通用爬虫框架 12 2.2 优秀爬虫的特性 15 2.3 爬虫质量的评价标准 18 2.4 抓取策略 19 2.4.1 宽度优先遍历策略(Breath First) 20 2.4.2 非完全PageRank策略(Partial PageRank) 21 2.4.3 OCIP策略(Online Page Importance Computation) 23 2.4.4 大站优先策略(Larger Sites First) 23 2.5 网页更新策略 23 2.5.1 历史参考策略 24 2.5.2 用户体验策略 24 2.5.3 聚类抽样策略 24

...展开详情
上传时间:2017-10 大小:34.42MB
热门图书