没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
试读
42页
搜索引擎,核心技术,详解,学习笔记,关于本篇学习笔记,只是把书中的一些概念进行了归纳,同时把个人的一些认知和看法写了下来,方便日后个人翻阅。本篇文章中作者提到了一个概念:强调原理不纠结细节,本人非常赞同,如果是在计算机相关领域达到了一定时间的技术知识、框架等广度和深度的积累,在探寻新的领域时,原理比技术实现似乎更为重要。所以本文中没有算法具体实现之类,只是一些更多原理相关的知识总结。具体想了解更多详细原理信息,可以购买作者的图书《这就是搜索引擎核心技术详解》,这里不是广告啊。如果你是技术流,建议不要购买。如果是在校的学生,可以看看图书馆是否有此本书,一定不要浪费图书馆这个好的资源。
资源推荐
资源详情
资源评论
这就是搜索引擎核心技术详解@
学习笔记
(V0.1)
文档信息
文档名称
这就是搜索引擎核心技术详解@学习笔记
电子文档
这就是搜索引擎核心技术详解@学习笔记/Microsoft WORD 2003
文件状态
□草 稿 ■ 正式发布 □ 正在修改
编 写 人
yijy
日 期
2013 年 09 月 30 日
校 对 人
日 期
年 月 日
审 核 人
日 期
年 月 日
批 准 人
日 期
年 月 日
第 1 页 共 42 页
变更记录
变
更
序
号
变更原因
变
更
页
码
变更
前版
本号
变更
后版
本号
更改
人
批准
人
生效日期
备
注
1 文档建立 0.1 yijy 2013.9.30
第 2 页 共 42 页
目 录
文档信息 .......................................................................................................................1
变更记录 .......................................................................................................................2
目 录 ...........................................................................................................................3
背 景 ...........................................................................................................................5
总 结 ...........................................................................................................................6
展 望 ...........................................................................................................................7
1 学习笔记 ................................................................................................................8
1.1 第一章:搜索引擎及其技术架构...........................................................8
1.2 第二章:网络爬虫...................................................................................9
1.2.1
通用爬虫框架
....................................................................................9
1.2.2
优秀爬虫的特性
................................................................................9
1.2.3
抓取策略
............................................................................................9
1.2.4
更新策略
..........................................................................................10
1.2.5
暗网抓取
..........................................................................................10
1.2.6
分布式爬虫
......................................................................................10
1.3 第三章:搜索引擎索引.........................................................................11
1.3.1
索引基础
..........................................................................................11
1.3.2
单词词典
..........................................................................................12
1.3.3
倒排列表
..........................................................................................12
1.3.4
索引建立
..........................................................................................13
1.3.5
动态索引
..........................................................................................13
1.3.6
索引更新策略
..................................................................................14
1.3.7
查询处理
..........................................................................................14
1.3.8
多字段索引
......................................................................................15
1.3.9
短语查询
..........................................................................................16
第 3 页 共 42 页
1.3.10
分布式索引
....................................................................................17
1.4 第四章:索引压缩.................................................................................18
1.4.1
词典压缩
..........................................................................................18
1.4.2
倒排列表压缩算法
..........................................................................18
1.4.3
文档编号重排序
..............................................................................21
1.4.4
静态索引裁剪
..................................................................................21
1.5 第五章:检索模型于搜索排序.............................................................21
1.5.1
布尔模型
..........................................................................................22
1.5.2
向量空间模型
..................................................................................22
1.5.3
概率检索模型
..................................................................................23
1.5.4
语言模型
..........................................................................................26
1.5.5
机器学习排序
..................................................................................26
1.5.6
检索质量评价标准
..........................................................................28
1.6 第六章:链接分析.................................................................................30
1.6.1 web
图
...............................................................................................30
1.6.2
两个概念模型以及算法之间的关系
..............................................30
1.6.3 PageRank
算法
.................................................................................31
1.6.4 HITS
算法(
Hypertext Induced Topic Selection
)
..........................31
1.6.5 SALSA
算法
......................................................................................34
1.6.6
主题敏感
PageRank(Topic Senstive PageRank)..............................35
1.6.7 Hilltop
算法
......................................................................................36
1.6.8
其他改进算法
..................................................................................38
1.7 第七章:云存储和云计算.....................................................................40
1.8 第八章:网页反作弊.............................................................................40
1.9 第九章:用户查询意图分析.................................................................41
1.10 第十章:网页去重.................................................................................41
1.11 第十一章:搜索引擎缓存机制.............................................................41
1.12 第十二章:搜索引擎个性化发展趋势.................................................42
1.13 附录.........................................................................................................42
第 4 页 共 42 页
背 景
关于本篇学习笔记,只是把书中的一些概念进行了归纳,同时把个人的一些
认知和看法写了下来,方便日后个人翻阅。本篇文章中作者提到了一个概念:强
调原理不纠结细节,本人非常赞同,如果是在计算机相关领域达到了一定时间的
技术知识、框架等广度和深度的积累,在探寻新的领域时,原理比技术实现似乎
更为重要。所以本文中没有算法具体实现之类,只是一些更多原理相关的知识总
结。具体想了解更多详细原理信息,可以购买作者的图书《这就是搜索引擎核心
技术详解》,这里不是广告啊。如果你是技术流,建议不要购买。如果是在校的
学生,可以看看图书馆是否有此本书,一定不要浪费图书馆这个好的资源。
第 5 页 共 42 页
剩余41页未读,继续阅读
yijiyong100
- 粉丝: 35
- 资源: 8
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
- 1
- 2
前往页