从头到尾彻底解析Hash_表算法.zip_K._againstzvw

共1个文件

pdf：1个

版权申诉

hash

127 浏览量 2022-09-23 21:10:38 上传评论收藏 310KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

从头到尾彻底解析Hash_表算法.zip （1个子文件）

从头到尾彻底解析Hash_表算法.pdf 320KB

十一、从头到尾彻底解析 Hash

Hash

Hash 表算法

作者： July 、 wuliming 、 pkuoliver

出处： http://blog.csdn.net/v_JULY_v

http://blog.csdn.net/v_JULY_v

http://blog.csdn.net/v_JULY_v 。

说明：本文分为三部分内容，

第一部分为一道百度面试题 Top K 算法的详解；第二部分为关于 Hash 表算法的详细阐

述；第三部分为打造一个最快的 Hash 表算法。

------------------------------------

第一部分：

Top

K 算法详解

问题描述

百度面试题：

搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的

长度为 1-255 字节。

假设目前有一千万个记录（这些查询串的重复度比较高，虽然总数是 1 千万，但如果除

去重复后，不超过 3 百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越

热门。），请你统计最热门的 10 个查询串，要求使用的内存不能超过 1G 。

必备知识：

什么是哈希表？

哈希表（ Hash table ，也叫散列表），是根据关键码值 (Key value) 而直接进行访问的数据

结构。也就是说，它通过把关键码值映射到表中一个位置来访问记录，以加快查找的速度

。

这个映射函数叫做散列函数，存放记录的数组叫做散列表。

哈希表的做法其实很简单，就是把 Key 通过一个固定的算法函数既所谓的哈希函数转

换成一个整型数字，然后就将该数字对数组长度进行取余，取余结果就当作数组的下标，将

value 存储在以该数字为下标的数组空间里。

而当使用哈希表进行查询的时候，就是再次使用哈希函数将 key 转换为对应的数组下

标，并定位到该空间获取 value ，如此一来，就可以充分利用到数组的定位性能进行数据定

位（文章第二、三部分，会针对 Hash 表详细阐述）。

问题解析：

要统计最热门查询，首先就是要统计每个 Query 出现的次数，然后根据统计结果，找出

Top 10 。所以我们可以基于这个思路分两步来设计该算法。

即，此问题的解决分为以下俩个步骤：

第一步： Query

Query

Query 统计

Query 统计有以下俩个方法，可供选择：

1 、直接排序法

首先我们最先想到的的算法就是排序了，首先对这个日志里面的所有 Query 都进行排

序，然后再遍历排好序的 Query ，统计每个 Query 出现的次数了。

但是题目中有明确要求，那就是内存不能超过 1G ，一千万条记录，每条记录是 255Byte

，

很显然要占据 2.375G 内存，这个条件就不满足要求了。

让我们回忆一下数据结构课程上的内容，当数据量比较大而且内存无法装下的时候，我

们可以采用外排序的方法来进行排序，这里我们可以采用归并排序，因为归并排序有一个比

较好的时间复杂度 O(NlgN) 。

排完序之后我们再对已经有序的 Query 文件进行遍历，统计每个 Query 出现的次数，再

次写入文件中。

综合分析一下，排序的时间复杂度是 O(NlgN) ，而遍历的时间复杂度是 O(N) ，因此该

算法的总体时间复杂度就是 O(N+NlgN)=O （ NlgN ）。

2 、 Hash

Hash

Hash Table

Table

Table 法

在第 1 个方法中，我们采用了排序的办法来统计每个 Query 出现的次数，时间复杂度是

NlgN ，那么能不能有更好的方法来存储，而时间复杂度更低呢？

题目中说明了，虽然有一千万个 Query ，但是由于重复度比较高，因此事实上只有 300

万的 Query ，每个 Query255Byte ，因此我们可以考虑把他们都放进内存中去，而现在只是需

要一个合适的数据结构，在这里， Hash Table 绝对是我们优先的选择，因为 Hash Table 的查

询速度非常的快，几乎是 O(1) 的时间复杂度。

那么，我们的算法就有了：维护一个 Key 为 Query 字串， Value 为该 Query 出现次数的

HashTable ，每次读取一个 Query ，如果该字串不在 Table 中，那么加入该字串，并且将 Valu e

值设为 1 ；如果该字串在 Table 中，那么将该字串的计数加一即可。最终我们在 O(N)

O(N)

O(N) 的时间

复杂度内完成了对该海量数据的处理。

本方法相比算法 1 ：在时间复杂度上提高了一个数量级，为 O （ N ），但不仅仅是时间复

杂度上的优化，该方法只需要 IO 数据文件一次，而算法 1 的 IO 次数较多的，因此该算法 2

比算法 1 在工程上有更好的可操作性。

第二步：找出

Top

算法一：普通排序

我想对于排序算法大家都已经不陌生了，这里不在赘述，我们要注意的是排序算法的时

间复杂度是 NlgN ，在本题目中，三百万条记录，用 1G 内存是可以存下的。

算法二：部分排序

题目要求是求出 Top 10 ，因此我们没有必要对所有的 Query 都进行排序，我们只需要维

护一个 10 个大小的数组，初始化放入 10 个 Query ，按照每个 Query 的统计次数由大到小排序

，

然后遍历这 300 万条记录，每读一条记录就和数组最后一个 Quer y 对比，如果小于这个 Query

，

那么继续遍历，否则，将数组中最后一条数据淘汰，加入当前的 Query 。最后当所有的数据

都遍历完毕之后，那么这个数组中的 10 个 Query 便是我们要找的 Top10 了。

不难分析出，这样，算法的最坏时间复杂度是 N*K

N*K

N*K ，其中 K 是指 top 多少。

算法三：堆

在算法二中，我们已经将时间复杂度由 NlogN 优化到 NK ，不得不说这是一个比较大的

改进了，可是有没有更好的办法呢？

分析一下，在算法二中，每次比较完成之后，需要的操作复杂度都是 K ，因为要把元素

插入到一个线性表之中，而且采用的是顺序比较。这里我们注意一下，该数组是有序的，一

次我们每次查找的时候可以采用二分的方法查找，这样操作的复杂度就降到了 logK ，可是

，

随之而来的问题就是数据移动，因为移动数据次数增多了。不过，这个算法还是比算法二有

了改进。

基于以上的分析，我们想想，有没有一种既能快速查找，又能快速移动元素的数据结构

呢？回答是肯定的，那就是堆。

借助堆结构，我们可以在 log 量级的时间内查找和调整 / 移动。因此到这里，我们的算

法可以改进为这样，维护一个 K( 该题目中是 10) 大小的小根堆，然后遍历 300 万的 Query ，分

别和根元素进行对比。

思想与上述算法二一致，只是算法在算法三，我们采用了最小堆这种数据结构代替数组

，

把查找目标元素的时间复杂度有 O （ K ）降到了 O （ logK ）。

那么这样，采用堆数据结构，算法三，最终的时间复杂度就降到了 N

N ‘

‘

‘ logK

logK

logK ，和算法二

相比，又有了比较大的改进。

总结：

至此，算法就完全结束了，经过上述第一步、先用 Hash 表统计每个 Query 出现的次数

，

O （ N ）；然后第二步、采用堆数据结构找出 Top 10 ， N*O （ logK ）。所以，我们最终的时间

复杂度是： O

O （ N

N ） +

+ N'*O

N'*O

N'*O （ logK

logK

logK ）。（ N 为 1000 万， N ’ 为 300 万）。如果各位有什么更好的

算法，欢迎留言评论。第一部分，完。

第二部分、 Hash

Hash

Hash 表算法的详细解析

什么是 Hash

Hash

Hash ，一般翻译做 “ 散列 ” ，也有直接音译为 “ 哈希 ” 的，就是把任意长度的输入（又叫

做预映射， pre-image ），通过散列算法，变换成固定长度的输出，该输出就是散列值。这种

转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散

列成相同的输出，而不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的

消息压缩到某一固定长度的消息摘要的函数。

HASH 主要用于信息安全领域中加密算法，它把一些不同长度的信息转化成杂乱的 128

位的编码 , 这些编码值叫做 HASH 值 . 也可以说， hash 就是找到一种数据内容和数据存放地

址之间的映射关系。

数组的特点是：寻址容易，插入和删除困难；而链表的特点是：寻址困难，插入和删除

容易。那么我们能不能综合两者的特性，做出一种寻址容易，插入删除也容易的数据结构？

答案是肯定的，这就是我们要提起的哈希表，哈希表有多种不同的实现方法，我接下来解释

的是最常用的一种方法 —— 拉链法，我们可以理解为 “ 链表的数组 ” ，如图：

左边很明显是个数组，数组的每个成员包括一个指针，指向一个链表的头，当然这个链

表可能为空，也可能元素很多。我们根据元素的一些特征把元素分配到不同的链表中去，也

是根据这些特征，找到正确的链表，再从链表中找出这个元素。

元素特征转变为数组下标的方法就是散列法。散列法当然不止一种，下面列出三种比较

常用的：

1 ，除法散列法

最直观的一种，上图使用的就是这种散列法，公式：

index = value % 16

学过汇编的都知道，求模数其实是通过一个除法运算得到的，所以叫 “ 除法散列法 ” 。

2 ，平方散列法

求 index 是非常频繁的操作，而乘法的运算要比除法来得省时（对现在的 CPU 来说，估计

我们感觉不出来），所以我们考虑把除法换成乘法和一个位移操作。公式：

index = (value * value) >> 28 （右移，除以 2^28 。记法：左移变大，是乘。右移变

小，是除。）

如果数值分配比较均匀的话这种方法能得到不错的结果，但我上面画的那个图的各个元素的

值算出来的 index 都是 0 —— 非常失败。也许你还有个问题， value 如果很大， value * valu e

不会溢出吗？答案是会的，但我们这个乘法不关心溢出，因为我们根本不是为了获取相乘结

果，而是为了获取 index 。

3 ，斐波那契（ Fibonacci

Fibonacci

Fibonacci ）散列法

平方散列法的缺点是显而易见的，所以我们能不能找出一个理想的乘数，而不是拿 value 本

身当作乘数呢？答案是肯定的。

1 ，对于 16 位整数而言，这个乘数是 40503

2 ，对于 32 位整数而言，这个乘数是 2654435769

3 ，对于 64 位整数而言，这个乘数是 11400714819323198485

这几个 “ 理想乘数 ” 是如何得出来的呢？这跟一个法则有关，叫黄金分割法则，而描述黄

金分割法则的最经典表达式无疑就是著名的斐波那契数列，即如此形式的序列： 0 , 1 , 1 , 2 , 3 ,

5 , 8 , 13 , 21 , 34 , 55 , 89 , 144 , 233 , 377 , 610 ， 987, 1597, 2584, 4181, 6765, 10946 ， … 。另外，斐

波那契数列的值和太阳系八大行星的轨道半径的比例出奇吻合。

对我们常见的 32 位整数而言，公式：

index = (value * 2654435769) >> 28

如果用这种斐波那契散列法的话，那上面的图就变成这样了：

评论收藏

内容反馈

版权申诉

御道御小黑

粉丝: 58
资源: 1万+

从头到尾彻底解析Hash_表算法.zip_K._againstzvw_hash

最新资源

从头到尾彻底解析Hash_表算法.zip_K._againstzvw_hash

从头到尾彻底解析Hash_表算法

算法学习：从头到尾彻底解析Hash-表算法

ngx_http_consistent_hash-master.zip

hash_XE2_by_eGust.zip

Step2 - Hasploger V1_hash_hasp_源码.zip

opencv_ffmpeg_64.dll-opencv_ffmpeg.dll-ippicv_windows_20151201.zip

Step2 - Hasploger V1_hash_hasp.zip

基于应变和应力的Vumat子程序_hashin失效准则_动态应变_拉伸失效_hashin_vumat.zip

HASH_MD5.rar_hash_hash SHA_hash算法MD5_md5_md5_hash

uniFiber_3DHashinvumat_hashin_vumat_vumathashin.zip

OpenCV4.1.2_vc14_x64.rar

libpng16-16_1.6.28-1+deb9u1_amd64.deb

Hash在线解密_Hash在线解密_Hash在线解密平台最新版_hash解密_hash.txt_mysql5在线解密_

uniFiber_3DHashinvumat_hashin_vumat_vumathashin_源码.zip

十五个经典算法研究与总结、目录+索引（by_....pdf

Hash_1.0.4.exe

Api-active_hash_relation.zip

冰河的渗透实战笔记-冰河.pdf

大灰狼远控2021最新版，解压密码222

J-LINK V10 V11固件.rar

ISO21434.pdf

Web安全漏洞扫描工具-AWVS14

CTF 竞赛入门指南（ctf-all-in-one）.pdf

Web中间件常见漏洞总结.pdf

stm32f103 adc采样+dma传输+fft处理 频率计_fft处理_stm32_ADCFFT_频率计_ADC采样_

jts-1.14.zip

CobaltStrike4.4.zip

最新资源

stm32f103 adc采样+dma传输+fft处理频率计_fft处理_stm32_ADCFFT_频率计_ADC采样_