没有合适的资源?快使用搜索试试~ 我知道了~
搜索引擎-搜索引擎精简摘要缓存方法研究.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 79 浏览量
2022-06-27
05:33:44
上传
评论
收藏 1.14MB PDF 举报
温馨提示
试读
63页
搜索引擎-搜索引擎精简摘要缓存方法研究.pdf
资源推荐
资源详情
资源评论
摘要
I
摘要
在应答一个来自用户的查询(query)时,现代搜索引擎会返回给用户前 个
相关的查询结果及其摘要。摘要是一小段摘选于文档的文本,该段文本归纳了
查询词与文档的相关关系。生成摘要既需要消耗大量系统 I/O 来检索文档,又
需要消耗大量的 CPU 来计算摘要。搜索引擎常常使用缓存技术来减少摘要生成
过程的延迟。
固态硬盘(Solid State Drive,SSD)是一种新兴的存储介质,它的 I/O 效
率比传统的机械硬盘(Hard Disk Drive,HDD)快 30 倍到 120 倍。随着固态硬
盘的性价比逐步提高,搜索引擎公司开始用固态硬盘替换传统机械硬盘。替换
后搜索引擎系统 I/O 性能不断提高,性能瓶颈从 I/O 转变为 CPU 计算。为了应
对 固态硬盘带来的变化,进一步提升系统性能,本文提出了一个简单但有效
的方法:用精简摘要(Fragment)替换原始的摘要。精简摘要在不改变摘要质
量的前提下,仅存储摘要的位置信息。该方法空间利用率更高。返回摘要前精
简摘要需恢复为完整摘要。针对精简摘要在恢复过程引起的文档检索,本文提
出了使用精简文档(Short Document)替换完整文档的方法。精简文档同样也
能够提高文档缓存的空间利用率。
本文的主要工作包括:
1. 为了减少平均摘要生成延迟,本文设计了摘要的精简表示方法。精简摘
要记录摘要在文档中的位置信息。在返回摘要前,精简摘要需要经过
计算才能恢复成完整摘要。在相同的缓存空间下,精简摘要缓存的命
中率远高于完整摘要缓存命中率。精简摘要缓存能够大量避免重复摘
要计算。精简摘要恢复完整摘要的过程会引起文档检索以及一小部分
额外计算,额外计算增加的摘要生成延时远小于精简摘要高命中率减
少的摘要生成延时。
2. 为了减少在精简摘要恢复过程引起的文档检索延迟,本文在精简摘要的
基础上,设计了配套的精简文档缓存。与文档缓存存储整篇文档不同,
精简文档缓存仅存储文档中用来恢复完整摘要的句子。由于精简文档
存储的内容更为精细,空间利用率更高,精简文档缓存能够有效减少
万方数据
摘要
II
摘要恢复过程的 I/O。配套精简摘要缓存,精简文档缓存能够进一步提
高摘要生成效率。
通过实验我们发现,精简缓存使摘要缓存的空间利用率提高了 15 倍,精
简文档缓存的空间利用率提高了 6 倍。
关键词:SSD;搜索引擎;摘要;缓存
万方数据
Abstract
III
Abstract
In response to a user query, search engines return the top-k relevant results,
each of which contains a small piece of text, called a snippet, extracted from the
corresponding document.Obtaining a snippet is time consuming as it requires both
document retrieval (disk access) and string matching (CPU computation), so
caching of snippets is used to reduce latency.With the trend of using flash-based
solid state drives(SSDs) instead of hard disk drives for search engine storage, the
bottleneck of snippet generation shifts from I/O to computation. We propose a
simple, but effective method for exploiting this trend, which we call fragment
caching: instead of caching the whole snippet, we only cache snippet metadata
which describe how to retrieve the snippet from the document. While this approach
increases I/O time, the cost is insignificant on SSDs. The major benefit of fragment
caching is the ability to cache the same snippets (without loss of quality), while
only using a fraction of the memory the traditional method requires. In our
experiments, we find around 10 times less memory is required to achieve
comparable snippet generation times for dynamic memory, and we consistently
achieve a vastly greater hit ratio for static caching. Recovering snippet from
fragment may introduce a lot of I/O. To reduce some I/O and store more texts in
memory, we introduce short document cache to replace document cache. Short
document contain the sentences which may be used to recover snippet and position
information of these sentences. With the same size of memory, short document
cache can hold more items. Short document cache may introduce much more
document retrieval, while these high frequency documents are stored in cache.
Contributions of this paper includes:
1. To reduce the latency of snippet generation, we introduce fragment.
Fragment have stored all the position information to recover snippet from
document. Fragment is much smaller than snippet. With the same memory,
fragment cache get higher hit ratio, which leads a reduction of duplicate
万方数据
Abstract
IV
snippet calculation. Recovering snippet from fragment may bring a little
calculation, which is much smaller than the benefit that fragment cache
brings.
2. Recovering snippet from fragment can bring some document retrieval. To
reduce these I/O, we introduce short document cache to replace document
cache. Short document stores the sentences which may be used to recover
snippet, resulting in smaller size than document. With the same size of
memory, short document cache can get higher hit ratio than document cache.
Together with fragment cache, short document cache can make the process
of snippet generation more efficient.
Key words:SSD; search engine; snippet; cache
万方数据
目录
V
目录
第一章 绪论 ........................................................................................... 1
第一节 研究背景 .................................................................................................... 1
第二节 本文主要工作 ............................................................................................ 2
第三节 本文组织结构 ............................................................................................ 3
第二章 背景知识介绍 ........................................................................... 5
第一节 搜索引擎架构及搜索引擎缓存系统简介 ................................................ 5
2.1.1 搜索引擎架构 ............................................................................................................ 5
2.1.2 常见搜索引擎缓存 .................................................................................................... 7
2.1.3 常见缓存策略 ............................................................................................................ 9
第二节 LUCENE 及常用搜索引擎搭建工具 ........................................................ 10
2.2.1 Lucene ...................................................................................................................... 10
2.2.2 Solr ............................................................................................................................ 11
2.2.3 中型搜索引擎搭建工具 ........................................................................................... 11
第三节 机械硬盘与固态硬盘 .............................................................................. 12
第四节 摘要生成及常见优化方法 ...................................................................... 15
2.4.1 摘要生成流程 .......................................................................................................... 15
2.4.2 压缩类优化方法 ...................................................................................................... 16
2.4.3 文档重排类优化方法 .............................................................................................. 17
2.4.4 并行类加速方法 ...................................................................................................... 17
第三章 基于精简表示的摘要缓存和文档缓存设计 ......................... 19
第一节 精简摘要缓存设计 .................................................................................. 19
第二节 精简文档缓存设计 .................................................................................. 25
万方数据
剩余62页未读,继续阅读
资源评论
programxh
- 粉丝: 17
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Python 程序语言设计模式思路-创建型模式:原型模式:通过复制现有对象来创建新对象,面向对象编程
- 卸载软件geek卸载软件geek
- Python 程序语言设计模式思路-创建型模式:单例模式,确保一个类的唯一实例(装饰器)面向对象编程、继承
- skywalking-plugins.jar skywalking-alarm.jar
- 独栋别墅图纸D020-两层-10.00&11.00米- 施工图.dwg
- Python 程序语言设计模式思路-创建型模式:工厂模式,创建对象的统一接口,封装对象的创建逻辑
- python自学教程-05-json数据格式的介绍.ev4.rar
- python自学教程-04-自定义JavaScript.ev4.rar
- 《淘宝后台系统...》
- skywalking-plugins.jar
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功