《大数据量级的数据处理算法》PDF_大数据算法pdf资源-CSDN文库

共1个文件

pdf：1个

数据处理算法

需积分: 13 180 浏览量 2017-11-25 15:57:54 上传评论 1 收藏 178KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

大数据量级的数据处理算法.zip （1个子文件）

大数据量海量数据处理.pdf 187KB

发信人: phylips (星星||一年磨十剑), 信区: Algorithm

标题: 面试题目-大数据量专题

发信站: 兵马俑BBS (Thu Nov 26 16:30:44 2009), 本站

(bbs.xjtu.edu.cn)

1. 给你A,B两个文件，各存放 50 亿条URL，每条URL占用 64 字节，内存限制

是 4G，让你找出A,B文件共同的URL。

2. 有 10 个文件，每个文件 1G，每个文件的每一行都存放的是用户的query，

每个文件的query都可能重复。要你按照query的频度排序

3. 有一个 1G大小的一个文件，里面每一行是一个词，词的大小不超过 16 个字

节，内存限制大小是 1M。返回频数最高的 100 个词

4.海量日志数据，提取出某日访问百度次数最多的那个IP。

5.2.5 亿个整数中找出不重复的整数，内存空间不足以容纳这 2.5 亿个整数。

6.海量数据分布在 100 台电脑中，想个办法高效统计出这批数据的TOP10。

7.怎么在海量数据中找出重复次数最多的一个

8.上千万or亿数据（有重复），统计其中出现次数最多的前N个数据。

统计可以用hash,二叉数,trie树。对统计结果用堆求出现的前n大数据。增加点

限制可以提高效率，比如出现次数>数据总数／N的一定是在前N个之内

9.1000 万字符串，其中有些是相同的(重复),需要把重复的全部去掉，保留没有

重复的字符串。请问怎么设计和实现？

10.一个文本文件，大约有一万行，每行一个词，要求统计出其中最频繁出现的

前十个词。请给出思想，给时间复杂度分析。

11.一个文本文件，也是找出前十个最经常出现的词，但这次文件比较长，说是

上亿行或者十亿行，总之无法一次读入内存，问最优解。

12.有 10 个文件，每个文件 1G，每个文件的每一行都存放的是用户的query，

每个文件的query都可能重复要按照query的频度排序

13.100w个数中找最大的前 100 个数

14.寻找热门查询：

搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查

询串的长度为 1-255 字节。假设目前有一千万个记录，

这些查询串的重复度比较高，虽然总数是 1 千万，但如果除去重复后，不超过 3

百万个。一个查询串的重复度越高，说明查询它的用户越多，

也就是越热门。请你统计最热门的 10 个查询串，要求使用的内存不能超过 1G。

（1）请描述你解决这个问题的思路；

（2）请给出主要的处理流程，算法，以及算法的复杂度。

15.一共有N个机器，每个机器上有N个数。每个机器最多存O(N)个数并对它们

操作。

如何找到N^2 个数的中数(median)？

本文由phylips@bmy收集整理，转载请注明出处 http://bbs.xjtu.edu.cn

谢谢合作。

如果可以

愿把这生命燃烧

只留下星星的传说

悲伤而让人怀念

※ 来源:．兵马俑BBS http://bbs.xjtu.edu.cn [FROM: 219.224.191.247]

发信人: phylips (星星||一年磨十剑), 信区: Algorithm

标题: 大数据量，海量数据处理方法总结

发信站: 兵马俑BBS (Thu Nov 26 16:32:38 2009), 本站

(bbs.xjtu.edu.cn)

最近有点忙，稍微空闲下来，发篇总结贴。

大数据量的问题是很多面试笔试中经常出现的问题，比如baidu google 腾讯

这样的一些涉及到海量数据的公司经常会问到。

下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法

可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数

遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定

最优，如果你有更好的处理方法，欢迎与我讨论。

1.Bloom filter

适用范围：可以用来实现数据字典，进行数据的判重，或者集合求交集

基本原理及要点：

对于原理来说很简单，位数组+k个独立hash函数。将hash函数对应的值的位

数组置 1，查找时如果发现所有hash函数对应位都是 1 说明存在，很明显这个

过程并不保证查找的结果是 100%正确的。同时也不支持删除一个已经插入的

关键字，因为该关键字对应的位会牵动到其他的关键字。所以一个简单的改进就

是 counting Bloom filter，用一个counter数组代替位数组，就可以支持删除

了。

还有一个比较重要的问题，如何根据输入元素个数n，确定位数组m的大小及

hash函数个数。当hash函数个数k=(ln2)*(m/n)时错误率最小。在错误率不

大于E的情况下，m至少要等于n*lg(1/E)才能表示任意n个元素的集合。但m还

应该更大些，因为还要保证bit数组里至少一半为 0，则 m应该>=nlg(1/E)*lge

大概就是nlg(1/E)1.44 倍(lg表示以 2 为底的对数)。

举个例子我们假设错误率为 0.01，则此时m应大概是n的 13 倍。这样k大概是

8 个。

注意这里m与n的单位不同，m是bit为单位，而n则是以元素个数为单位(准确的

说是不同元素的个数)。通常单个元素的长度都是有很多bit的。所以使用bloom

filter内存上通常都是节省的。

扩展：

Bloom filter将集合中的元素映射到位数组中，用k（k为哈希函数个数）个映射

位是否全 1 表示元素在不在这个集合中。Counting bloom filter（CBF）将位

数组中的每一位扩展为一个counter，从而支持了元素的删除操作。Spectral

Bloom Filter（SBF）将其与集合元素的出现次数关联。SBF采用counter中的

最小值来近似表示元素的出现频率。

问题实例：给你A,B两个文件，各存放 50 亿条URL，每条URL占用 64 字节，

内存限制是 4G，让你找出A,B文件共同的URL。如果是三个乃至n个文件呢？

根据这个问题我们来计算下内存的占用，4G=2^32大概是 40亿*8大概是 340

亿，n=50 亿，如果按出错率 0.01 算需要的大概是 650 亿个bit。现在可用的

是 340 亿，相差并不多，这样可能会使出错率上升些。另外如果这些urlip是一

一对应的，就可以转换成ip，则大大简单了。

2.Hashing

适用范围：快速查找，删除的基本数据结构，通常需要总数据量可以放入内存

基本原理及要点：

hash函数选择，针对字符串，整数，排列，具体相应的hash方法。

碰撞处理，一种是open hashing，也称为拉链法；另一种就是closed hashing，

也称开地址法，opened addressing。

扩展：

d-left hashing中的d是多个的意思，我们先简化这个问题，看一看 2-left

hashing。2-left hashing指的是将一个哈希表分成长度相等的两半，分别叫做

T1 和T2，给T1 和T2 分别配备一个哈希函数，h1 和h2。在存储一个新的key

时，同时用两个哈希函数进行计算，得出两个地址h1[key]和h2[key]。这时需

要检查T1 中的h1[key]位置和T2 中的h2[key]位置，哪一个位置已经存储的

（有碰撞的）key比较多，然后将新key存储在负载少的位置。如果两边一样多，

比如两个位置都为空或者都存储了一个key，就把新key 存储在左边的T1 子表

中，2-left也由此而来。在查找一个key时，必须进行两次hash，同时查找两个

位置。

问题实例：

1).海量日志数据，提取出某日访问百度次数最多的那个IP。

IP的数目还是有限的，最多 2^32 个，所以可以考虑使用hash将ip直接存入内

存，然后进行统计。

3.bit-map

适用范围：可进行数据的快速查找，判重，删除，一般来说数据范围是int的 10

倍以下

基本原理及要点：使用bit数组来表示某些元素是否存在，比如 8 位电话号码

扩展：bloom filter可以看做是对bit-map的扩展

问题实例：

1)已知某个文件内包含一些电话号码，每个号码为 8 位数字，统计不同号码的

个数。

8 位最多 99 999 999，大概需要 99m个bit，大概 10 几m字节的内存即可。

2)2.5 亿个整数中找出不重复的整数的个数，内存空间不足以容纳这 2.5 亿个

整数。

将bit-map扩展一下，用 2bit表示一个数即可，0 表示未出现，1 表示出现一次，

2 表示出现 2 次及以上。或者我们不用 2bit来进行表示，我们用两个bit-map

即可模拟实现这个 2bit-map。

4.堆

适用范围：海量数据前n大，并且n比较小，堆可以放入内存

基本原理及要点：最大堆求前n小，最小堆求前n大。方法，比如求前n小，我们

比较当前元素与最大堆里的最大元素，如果它小于最大元素，则应该替换那个最

大元素。这样最后得到的n个元素就是最小的n个。适合大数据量，求前n小，n

的大小比较小的情况，这样可以扫描一遍即可得到所有的前n元素，效率很高。

扩展：双堆，一个最大堆与一个最小堆结合，可以用来维护中位数。

问题实例：

1)100w个数中找最大的前 100 个数。

用一个 100 个元素大小的最小堆即可。

5.双层桶划分

适用范围：第k大，中位数，不重复或重复的数字

基本原理及要点：因为元素范围很大，不能利用直接寻址表，所以通过多次划分，

逐步确定范围，然后最后在一个可以接受的范围内进行。可以通过多次缩小，双

层只是一个例子。

扩展：

问题实例：

评论收藏

内容反馈

小简铺子

粉丝: 130
资源: 28

《 大数据量级的数据处理算法》PDF

大数据处理算法.pdf

常用大数据量、海量数据处理方法__算法总结.pdf

《大数据算法》┊王宏志PDF

大数据算法大全

处理大数据量excel

大数据量_海量数据_处理方法总结

java动态大数据量EXCEL下载

excel大数据量导出

大数据算法_王宏志

大数据-日知录-架构-算法(PDF高清完整版)

大数据-算法-周期量级激光脉冲相干控制及其算法的研究.pdf

大数据测试——精选推荐.pdf

从大数据到小数据.pdf

大数据的两种处理方式.pdf

基于FPGA的大数据浮点FastICA算法的设计与实现

论文研究-随机决策树改进算法在大数据上的设计与实现 .pdf

基于大数据平台数据分析技术选型调研.pdf

qt 快速加载并动态显示大容量数据能够加载千万行量级的数据

浅谈大数据生态圈.pptx

[详细完整版]大数据模板.pptx

大数据技术初探.docx

对于大数据的认识.pdf

大数据实战之千万量级小说网站项目开发（存储、复杂搜索、推荐、分析）课程下载

我对大数据的认识.pdf

大数据分析-网站日志数据文件（Hadoop部署分析资料）

大数据文献综述.docx

百万量级海上目标数据处理与显示技术.pdf

最新资源

《大数据量级的数据处理算法》PDF