康托尔
Cantor提供实用程序来估计大集合的基数。
本文中的算法是可并行化的,为方便起见提供了Hadoop包装器类。
它采用大多数HyperLogLog ++算法如所见,不包括稀疏方案,并使用简单的线性内插,而不是k近邻。 此外,它可以使用MinHash结构来估计这些集合的相交的基数,如。
HyperLogLog和MinHash都需要一个精度参数。 基本准则如下,并且HLLCounter.MIN_P = 4 <= p <= 18 = HLLCounter.MAX_P 。
#### HyperLogLog p @ 99.7%置信度
p
相对误差
4
75%
5
65%
6
47%
7
32%
8
23%
9
16%
10
10%
11
8%
12
5%
13
4%
14
2.5%
15
2%
16
1.3%
17
1%
18
评论0
最新资源