论文研究-基于KD-树和K-means动态聚类方法研究.pdf

所需积分/C币:20 2019-07-22 21:00:59 1009KB .PDF
收藏 收藏 1
举报

针对传统K-means聚类算法对初始中心点比较敏感、易陷入局部最优,首先提出基于KD-树的初始聚类中心点选取方法。该方法通过建立KD-树将数据集分割成矩形单元,计算每个矩形的矩形单元中心、矩形单元密度,并将计算所得矩形单元密度降序排列,通过选取前k个矩形单元中心作为初始聚类中心,可有效克服传统算法对初始中心点的敏感。此外,针对传统K-means聚类算法不能有效处理动态数据聚类的问题,进一步提出了KDTK-means聚类算法。该算法对基于KD-树优化选取的k个聚类中心和增量数据建立新的KD-树,利用近邻搜索策略将增量数据分配到相应的聚类簇中并完成聚类。实验结果表明,与传统的K-means聚类算法
3592· 计算机应用研究 第32卷 定义2矩形单元中心。它表示各个矩形单元的均值,用始中心点选取的算法中,创建KD树将样本数据集分割成n个 其代表矩形单元,定义如下: 矩形单元,其中创建KD-树的时间复杂度为O( n log n),计算 矩形单儿中心的时间为O(n),然后计算矩形单元密度的时间 CenterRen U (2)为O(n’lgn′),最后对数据集x进行传统K- Irledrls聚类时的时 其中:S去示每个矩形单元中所有数据的线性和:W表示矩形间复杂度为0(n)。所以,总的时间复杂度为(nlgn)+ 单儿的权重,用单元中样木数据对象的个数衡量 O(n'logn')+O(n'Mt)。 定义3矩形单元密度。表示矩形单元中数据对象的密 3基于KD-树优化的KDTK- means动态聚类算法 集程度,定义如下 Rec U Density 在实际情况中,新数据无时无刻不在产生,随时都有新的 rnax 数据到来。由于传统K- means聚类算法不能有效处理动态数 其中:n表示矩形单元内样本数据对象的个数;V表示矩形单据的聚类问题,为此,本文在基于KD树优化聚类初始中心点 元的面积;d1m、dm分别表示相应矩形单元内数据的最大值与选取算法的基础上,进一步提出了 KDTK-means动态聚类算 最小值。通过密度降序排列选取前h个矩形单元中心作为初法。该方法通过基于KD树选取初始聚类中心点的算法选取 始聚类中心 出k个具有代表性的初始聚类中心,当增量数据到来时,把k 2.2基于KD-树的初始中心点选取算法 个初始聚类中心和增量数据一起建立KD-树,采用近邻搜索策 设样本数据集为X={x1,x2,…,xn},聚类数目为h。 略对增量数摒进行分配.将其分配到相应的聚类簇中,完成聚 本文所提基于KD-树优化初始聚类中心点选取算法的基类过程,避免了传统 K-means方法每次增量聚类吋都需要对整 木思想是:首先通过KD树切割数据空间X然后计算切割形体数据重新进行聚类的问题,较大程度地增加了新数据加入样 成的矩形单元RecU的中心 Cerler,记为 CenlerRec L,以此中本时的执行效率,同时提高了增量聚类的效率 心代表矩形单元,用 CenterRec (描述数据集的分布情况,记3:1簇间距 enterrec u的集合为数据集X′,对数据集X'按照矩形单元密 已知数据集X={x1,x2,…,xn}。为了研究基于KD树优 度 Rec u densit进行降序排序;然后从数据集x′中选取前k化的K- means增量聚类算法,本文给出了以下定义。 个点作为初始聚类中心,记为C={C1,C2,…,C},对数据集 定义4簇间距。设有样本数据集K1、X2,函数Dit(C x进行聚类,即矩形单元屮心会分成k个聚类簇;最后,各个聚C)表示任意两个样本簇之间的距离,定义如下 类簇的代表中心作为总体数据集的初始聚类中心C=C1 Dist(Ci, Ci) ∑∑Dis(x1:x) (4) C2,…,C} 算法描述如下 共中:CC分别表示包含x1、x在内的两个聚类簇;x1、x分别 算法1基于KD)-树的初始中心点选取算法 表示样本数据集X1、k2中的样本点;Dst(x,x)应用欧氏距离 输人:数据集X={x1,x2,…,x 算任意两个样本数据之间的距离;n1、n2分别表示两个样本 输出:k个初始聚类中心对象。 簇中数据对象的个数。 定义5平均簇间距。通过聚类算法产生的簇与簇之间 )根据数据集X的大小和聚类数目k确定细分因子SF,通过细分的平均距离,定义如下: 囚子SF(一般设L=10)确定KD树的深度H,可通过数据集的人小适 h Dist(Ci, Ci) 当调整 Avg Dist(C)=∑2 2k b)建立KD-树,分割数据集X,划分成Nume个矩形单元,并计 算每个矩形单元内数据对象数目DaaN。 其中:C、C,表示任意两个聚类簇。如果两个簇的簇间距小于 )计算矩形单元中心 CenterRec U和短形单元密度 DensityRec。 AvgDist(C),则合并两个簇;如果两个簇的簇间距大于等于 山)将计算所得的矩形单π密度 DensityRec U按照降序排列,形成 weIsl(C),则不对这两个簇进行操作,继续比较其他的簇,直 数据集X 到任意两个簇的簇间距均大于 Avodist(C)为止。 )选取数据集x中前k个数据对象作为初始聚类中心进行聚关,3.2 KDTK-means算法描述 形成新的k个聚类中心C={C1,C2,…,Ch}。返回初始数据集,并将 其作为鳳始数据的初始聚类中心 本文提出的KDTK- NelliS算法的基本思想是:首先应用基 )输出此时的k个初始聚类中心数据对象 于K冂-树优化选取初始聚类中心的算法,选取出k个有效的初 始聚类中心点C={C1,C2,…,C}。当增量数据X′={x′1 在算法1中,通过建立KD树将数据集空间进行划分成多x2,…,xn}到来时把增量数据X={x1,x'2,…,xn|和初始 个矩形单元,然后在每一个矩形单元内计算该矩形单元的矩形聚类中心C={C1,C2,…,C}构建KD树,然后采用最近邻搜 单元中心矩形单元密度,并将计算所得矩形单元密度按降序索算法在KD树中查找每个增量数据x(i=1,2,…,m)的最近 排列,选取前h个矩形单元密度较大数据对象作为样本聚类聚类中心C(i=1,2,…,k),并将增量数据x(i=1,2,…,m) 时的初始聚类中心。相对于传统K- means聚类算法的初始中分配到相应的聚类簇中。分配完毕后,根据平均簇间距Avg 心点的随机诜取,本文所提算法提高了初始聚类中心点的代表Dt(C)合并邻近的簇,直到任意两个簇之间的距离均大于簇 性及有效性,有效地减小了噪声点对聚类的影响.避免聚类陷之间的平均距离为止,以达到进一步修正分配结果的目的,使 入局部最优,提高了聚类结果的质量 增量聚类结果达到最优。 传统K- means聚类算法的时间复杂度为O(nkt),其中n KDTK- means算法具体设计描述如下 是样本数目,是聚类数目,是迭代次数。在基于KD-树的初 算法2基于KD-树优化初始中心点的K-mams动态聚类 第12期 万静,等:基于KD树和 K-means动态聚类方法研究 3593 算法 法的有效性,采用的数据集为UCI中的 Breast Cancer、 Thyroid、 输:包含π^数据对象的原始数据集X=x1,x2,…,xn和增量Fcoi数据集,数据集详细情况如表1所示 数据集x={x'1,x'2,…,x 表1实验数据集 输出:最优聚类结果簇 a)应用基于KD-树优化初始聚类中心点选取算法,选取出k个有 数据集 样本数目 属性数目 聚类数目 效的初始聚类中心点C={C1,C2,…,C}。当增量数据X’={x1, x2,…,xn}到来时,把增量数据′={x1,x2,…,xm}和初始聚类中心 215 3 C={C1,C2,…,C}构建KD-树 Ecoli 336 b)设第i(1,2,…,k)个聚类簇中増量数据个数为M,第i(1,2,…, 对基于KD-树优化的初始聚类中心点选取算法与传统K k)个聚类中数据对象所组成的集合为G mcans聚类算法在准确率与时间开销方面的性能,本实验通过 e)对其他对象x(i=1,2,…,m)搜索对应的最近邻为C,(=1 2,…,h),然后将数据对象x1(i=1,2,…,m)分配刭相应的集合G;中 上述 Breast cancer、 Thyroid、 Ecoli数据集进行聚类,并对其结果 (a)从KD树根节点出发,递归地向下搜索x(i=1,2,…,m),如进行记录分析,实验运行结果分析如表2所示 果x1(i=1,2,…,m)的当前坐标小于分裂点的坐标,则进人其左空间 表2新方法与传统K- neans方法实验结果分析 进行搜索,否则进入到其右空间进行搜索,直到叶节点为止,并标记为 传统K- means 本文方法 Nearest,计算叶节点与t(t=1,2,…,m)的距离为 Distance 数据集 准硝率/% 时间/ms 准确率/% 时问/ms (b)归地向上回溯,分别计算每个节点与目标点的距离,如果 Breast cancer92.42 其与目标点x(i=1,2,…,m)的距离小于 Distance,则更新此节点为最 近点 Nearest,并且距离为 Distance,然后以x(i=1,2,…,m)为圆心 Ecoli Distance为半径作圆,观察所作圆是否与此节点的分裂轴相交,如果相 交,则需要向此节点的另一千节点进行搜索;如果不相交,则继续向上 从表2可以看出,本文提出的基于KD-树优化的初始聚类 回溯,当遐回到根节点时,搜索结束,此时的 Nearest即为x(i=1,2 中心点选取算法比传统 K-means聚类算法准确率明显提高,说 m)的最近聚类中心,然后将增量数据x!(i=1,2,…,m)分配到Nea-明基于KD树的初始聚类中心洗取算法是有效的。不过,相比 est对属的聚类中心中。 于传统K- means聚类算法,本文提出的算法时间消耗很大,这 d)递归地搜素每一个增量数据对象(=1,2,…,m)对应的最汇是因为在确定初始聚类中心时,需要建立KD树以及计算矩形 聚类中心C(i=1,2,…,),并同时更新第i(i=1,2,…,k)个聚类中 单元中心等一系列操作,而传统K- means東类算法只是随机选 ∑x,形成k个聚类簇 取初始聚类中心,所以传统K-eas时间消耗较小。由此可以 e)对k个聚类簇的簇间距进行比较,如果两个簇的簇间距Di 看出,本文提出的基于KD-树优化初始聚类中心点选取的算 (C,C)小于平均簇间距AwD(C),则合并两个簇,直到任意两个簇法,对低维数据的处理上比传统Kmem准确性有较大提高。 的簇间距均大于平均簇间距 Avgdist(C)为止,即 Repeat;对每一个C;,C;∈C 为了进一步验让本文提出的基于KD-树优化聚类初始中 if Dist( Ci, C:)< AvgDist(C)then 点选取算法对于高维数据的有效性,采取人工数据集Data- 合并候C,C,记为C+ setl-8,数据集详绀描述如表3所示 else if Dist( Ci, C:)> AvgDist(C)then 表3人工数据集 DataSet~8 不对簇进行任何操作 Until:任意两个簇之间的距离均大于簇之间的平均距离结束。 人工数据集数据对象个数数据维度聚类数目k Dataset 4095 )输出最伏聚类结果簇 4095 通过算法2可以看出,本文首先应用基于KD-树优化选取 Dalasel3 初始聚癸屮心点的算法选取出k个有效的初始聚类屮心;然后 4095 将k个初始聚类中心与增量数据一起重新建立KD-枫,利用最 DataSet6 4095 近邻搜索策略的算法思想,将增量数据逐一分配到相应的聚类 35 簇中,完成增量数据的聚类;最后通过簇与簇之间的屮均距离 Dalasel8 4095 完成对聚类结果的修正与完善,使所得聚类结果簇的个数达到 将本文提出的基于KD-树优化聚类初始中心点选取算法 最优。 和传统K- means聚类方法同时应用到上述人工数据集,针对上 传统 K-means聚类算法的时间复杂度为O(nA),其屮n述八组人工实验数据集分别进行独立的八次实验,对每一红数 表示数据集中数据对象的个数,k表示聚类簇的个数。在本文据集所得槳类的准确性和运行时间进行实验记录并分析,实验 提出的KDTK- means聚类算法中,应用基于KD-树优化初始聚记录分析结果如图1和表4所示。 类中心点选取算法选取出k个有效中心点与增量数据建立 KUTK-means算法 KD-树的时间为O(klgk),在KD-树上搜索n个对象的最近 邻增量数据对象的时间为O( n log h),则总的时间复杂度为O (n/logk)。通过对比发现,本文提出的算法比传统K- means聚 类算法的效率高。 4实验结果与分析 本实验分两部分对新提出的方法进行实验分析。 510152025303540 4.1基于KD树优化的初始聚类中心点选取算法实验分析 数据维度 图1基于KD树优化方汏与传统 K-means聚类算法 首先,为了测试基于KD-树优化的初始聚类中心点选取算 对不同维度数据实验所得准确率结果 3594 计算机应用研究 第32卷 表4基于KD-树优化方法与传统K- -means聚类算法 间所以在初始状态时, KDTK-means算法聚类时间略高于传统 对不同维度实验数据运行时间的实验结果 K- means聚类算法;随着聚类数目的不断增加,KDTK- means算 运行时间ms 数据集 传统 K-Ineaus方法 基于KD树优化方法 法所得聚类时间缓慢增加,不过相比于传统K- means聚类算法 Dataset 的时间消耗小,因为KDTK-neas算法建立KD-树之后,直接 Dataset2 513 1206 査找最近邻对象,减少了比较的次数。 624 DataSet 从表5中可以看出,传统 K-means聚类算法随着聚类数目 Datasets 5658 的不断增大,聚类结果的准确性在不断地下降;而本文提出的 DataSet 算法随着聚类数目的不断增大,虽然准确率有所下降,但较之 DataSet 1622 11125 DataSet8 2139 13381 传统K- means算法要优异很多。当聚类数k为50时,传统K- 从图1可以看出,在不同数据维度上,应用传统 K-means means聚类算法的准确率为61.87%,木文的KDK- means聚 聚类算法和本文提出的基于KD-树优化的算法分别对八组人类算法准确率为86.75%;当聚类数日达到1000时,传统K 工实验数据集进行独立实验,所得到的聚类准确率明显不同。"ea算法的准确率仅有37.28%,而本文的KK-mems算 当数据维度较低时,传统 K-means算法与本文算法都保持较高法还可以达到79.83%。所以,通过上述分析可以看出,本文 的聚类准确率;当数据维度变大时,传统 K-mcans聚类算法得提出的KDK- means聚类算法优于传统K- means聚类算法,并 到的聚类准确率明显降低,而本文提出的基于KD树优化的算月适用于处理高维数据 法在数据维度变大时,还能保持较高的聚类准确率。 进一步应用本文提出的 KDTK-means聚类方法与当前处 从表4中可以看出,本文提出的基于KD树优化的算法通理增量数据比较常用的增量 DBSCAN聚类算法进行实验比 过建立κ冂-树来侏证聚类算法的准确率,需要耗费很多的时间铰,通过两种方法对增量数据聚类时所需要的运行时间与正确 建立KD树,所以本文提出的基于KD-树优化的算法对人工数率进行了比较,实验分析结果如图3和表6所示 5.0 据集 DataSet- DataSet8进行实验时,所得聚类时间明显高于传 INcremental DbSCa K- eans聚荬算法 6.0-F--kDTK 统K- mcans梟类算法,尤其是当数据维度较大时,时间耗损比 3.0 较明显。 通过上述分析,可以得到本文提出的基于KD-树优化的算 法比传统K- means聚类算法更为有效,并且可以应用到高维数04 通▲4 据的聚类分析中。 1020501003005008001000 聚类数目() 数据点更新的数目(k) 4.2基于KD-树优化的 KDTK-means动态聚类算法实验 图2传统K- means聚类算法和图3 KDTK-mcan聚类算法与 分析 KITK-ImIeanS聚类算法对不同聚类增量 DBSCAN算法随着数据 数日进行聚类时所消耗的时间 对象的更新聚类所用时间 为了进步验证本文提出的算法对增量数据的性能,首先 表6KDIK- means聚类算法与增量 DBSCAN算法 本实验在基于KD-树优化选取的k个初始聚类中心点的基础 随着数据对象的史新聚类准确率结樊 上,通过近邻搜索策略对增量数据进行指派,实现增量聚类的 KDTK- means算法 增量 DBSCAN算法 数据数目(l) 行时间/s准确率/%运行时间s准确率/% 过程,得到最优的聚类结果,并将实验结果与应用传统K- 0.28 95.77 1.5 means聚类算法进行增量聚类时产生的聚类结果进行比较。 1.98 实验采用人工数据集 KDTDataSet'9。 KDTDataSet9为含有 2.51 86.75 10000个实验数据的10维数据集。然后取不同的聚类数目, 0.98 84 即使聚类数月k=5,10,20,50,100,300,500,800,1000,分别使 6 1.12 82.75 3.52 75.44 用传统K- means聚类算法和本文提出的KDTK- means聚类算 7 1.48 81.33 4.50 81.25 法对实验数据进行聚类分析。实验结果如图2和表5所示。 1.89 表5两种不同算法聚类结果比较 80.09 6.21 数据集类数目传统 K-mcens聚类 KIrTK-mcans聚类 通过图3与表6的分析可以得到,本文提出的KDIK- 时间/。准确率/%时间/。准确率/% means聚类方法和增量 DBSCAN聚类算法随着增量数据的不 0.27 86.83 0.32 断加人,增量 DBSCAN算法对数据辨识的准确性略微高于本 0.4 文提出的 KITK-means算法,不过准确率相差不大,而且增量 61 0.52 DBSCAN算法与 KDTK-means算法的聚类所用时间基本呈线 KDTDataset9 100 1.63 1.14 性趋势不新增加。但是从图3可看出,木文提出的KDTK- 聚类方法时间消耗明显低于增量 DBSCAN聚类算法 3.26 实验结果分析表明,本文提出的KDTK- means类方法相比于 10004. 37.28 3.l 增量 DBSCAN聚类算法时间耗损更小,处理薮据更新、效率 更高。 从图2中可以看出,传统K- neatly聚类算法随着聚类数目 的不断增加,聚类消耗时间基本呈现逐步上升的趋势,主要是5结束语 因为聚类数目的不断增加,使得迭代次数增加;而本文提出的 KDTK-mcans聚类算法,由于初始时建立KD-树需要一定的时 传统K- means聚类算法通过随机选取k个数据对象作为 第12期 万静,等:基于KD树和 K-means动态聚类方法研究 3595· 初始聚类中心,聚类结果受初始聚类中心影响较大,易陷入局[8]孟海东,王淑玲,郝永宽·基于簇特征的增量聚类算法设计与实现 部最优。针对以上不足,本文提出了基于KD-树优化初始聚类 [J].计算机工程与应用,2010,46(24):132-134. 中心的选取方法,通过建立KD.树选取矩形单元密度相对较大[9孟海东,王淑玲,郝永宽动态增量聚类的投计与实现[].计算机 的数据对象作为初始聚类中心,提高了初始聚类中心的有效 工程与应用,2009,45(24):130 性。实验结果表明,基于KD-树优化的初始聚类中心的选取方 [10]张翀,唐九阳,肖卫东,等,基于簇核心的ⅩML鲒构聚癸方法[J] 法能够得到较为稳定且高质量的k个初始聚类中心。此外,结 计算机研究与发展,2012,48(11):2161-2176. 合本文提出的基于KD-树优化初始中心算法,选取k个初始中 [ 11] Kuli D, Otl C, Lee D, et al. Ineremental learning of full body motion primitives and their sequencing through human motion observation 心点,采用近邻搜索策略,将提前选取出的聚类屮心点与增量 [J. The International Journal of Robotics Research, 2012, 3 聚类建立KD-树,对增量数据进行聚类。实验结果分析验证了 (3):30-345 算法的有效性。未来的研究主要集中在算法的优化方面。 12 Nhon V L Q, Anh DT. A BIRCH-based clustering method for large 参考文献 time series databases[M//New Frontiers in Applied Data Mining [1 Zhang Ji, Hsu W, Lee M L. Clustering in dynamic spatial databases Berlin: Springer, 2012: 148-159 [. Journal of Intelligent Information Systems,200524(1):5-[13]胡伟,一种改进的动态K为值聚类算法[J,计算机系统应月 2013,22(5):116-121 [2]孙吉貴,刘杰,赵连宇.聚类算法研究[冂.软学报,001914]洪亮亮,罗可动态的粗糙增量聚类方法[J.计算机工程与应 (1):48-61 用,2011,47(24):106-110 [3 Likas A, Vlassis N, J Verbeek J. The global(i k(/i)-means cluste 15] Wilkin G A, Huang Xiuzhen. K-means clustering algorithms: impl ring algorithm[J]. Pattern Recognition, 2003, 36(2): 451-461 mentation and comparison[ C]//Proe of the 2nl Inlernational Multi [4王永贵,林琳,刘宪国,结合双粒子群和K- means的混合文本聚类 Symposiums on Computer and Computational Sciences. 2007: 133 算法[J].计算机应用研究,2014,31(2):364-368 [5] Yu shi, Tranchevent L c, Liu xinhai, t al. Optimized data fusion for[l6]周世兵,徐振源,唐旭清k- means算法最佳聚类数确定方法[J] kernel K-means clustering[ J]. IEEE Trans on Pattern Analysis 计算机应用,2010,30(8):1995-1998 and Machine Intelligence, 2012, 34(5): 1031-1030 [17]陈黎飞,姜青山,王声瑞.基于层次划分的最佳聚类数确定方法 [6 Li M J, \g M K, Cheung Y, el aL. Agglomerative fuzzy K-means cluste [J].软件学报,2008,19(1):62-72 ng algorithm with selection of number of clusters[ J]. IEEE Trans [181 Bentley J L Multidimensional binary search trees used for associative Knowledge and Data Engineering, 2008, 20(11): 1519-1534 searching[ J. Communications of the ACM, 1975, 18(9): 509 [η]程东海,鱼江,高飞,等.最大距高法选取初始簇中心的K- rneans 文聚类算法的研究[冂].计算机应用研究,2014,31(3):713-[19]潘章明一种基于KD树子样的自动聚类方法[J计算机工程与 715,719 科学,2011,33(1):166-170. (上接第3564页) ig.2012:449453 参考文献 I 10 Otey M E, Wang Chao, Parthasarathy S, ct al. Mining frequent itemsets [1 Ichrio MASAKI A brief Ilistory of ITS[R]. Cambridge: Massachusett in distributed and dynamic databases[ C]//Proc of the 3rd IEEE In- Data Mining. 2003:617-620 Institute of Technology, 1999 12」谢嘉透,彭宏,周兵,等基于数据挖掘技术的智能交通信息分析[1洪月华,传感器风分布式数据流的频繁项集挖据法[],计 与决策研究[J].公路,2004(4):154-158 算机科学,2013,39(2):58-60,94 3]李国缴,陈摆挖数揭流任意潸动时间窗口内频繁模式[J.[121 Han Jiawe,pjan,rnwe. lining frequent patterns without can 件学报,2008,19(10):2585-2596 didate generation[ J. ACM SIGMOD Record, 2000, 29(2): 1-12 4]陈辉,挖掘数揭流滑动时间窗口内TpK频繁模式[1].小型微[13Dn, hemawat. mapreduce; simplified data processing on large 型计算机系统,2010,31(6):1123-1128. clusters[ J. Communications of the ACM, 2008, 51(1): 107-113 [5]由武,隋海峰,杨炳儒,等.分车式数据流挖据的研究进展[J计[14]亓开元,乾燕波,赵卓峰,等支持高并发数据流处理的MpRe 算杌科学,2012,39(1):1-8 l灬宀间结果缓存[冂].计算机研究与发展,2013,50(1):11 [6 Jiang Nan, Grnenwald L CFI-stream mining closed frequent itemsets in data streams[C//Pro of the 12th ACM SIGKDD Interl Confer L 15 Condie T, Conway N, Alvaro P, et al. Online aggregation and conti enee on Knowledge Discovery and Data Mining. New York: ACM nuous query support in Map Reduce[C_ //Proc of ACM SIGMOD In- Press.2006:592-597 ternational Conference on Management of Data. New York: ACM [7 Pramudiono I, Kitsuregawa M. Parallel FP-growth on PC cluster[ C]// Press.2010:l15-1118 Advances in Knowledge Discovery and Data Mining. Berlin: Springer, 16] Bose J H, Andrzejak A, Hogqvist M Beyond online aggregation: paral- 2003:467-473 lel and incremental data mining with online MapReduce[ C//Proc of [8 Li llaoyuan, Wang Yi, Zhang Dong, et al. PFP: parallel FP-growth for CM Workshop on Massive Data Analytics on the Cloud. New York query recommendation[C]//Proe of ACM Conference on Recommen ACM PrE=s,2010:3-8 der Systems. 2008: 107-114 [17 Pei Jian, Han Jiawei, Mao Runying CLOSET: an efficient algorithm for [9 Wang Suqi, Yang Yubin, Chen Guangpeng, et al. MapReduce-based mining frequen closed itemsets[J]. ACM SIGMOD Workshop an closed frequent itemset mining with efficient redundancy filtering Research Issues in Data Mining and knowledge Discovery [C//Proc of the 12th IEEE International Conference on Data Min 2000,4(2):21-30

...展开详情
试读 6P 论文研究-基于KD-树和K-means动态聚类方法研究.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
    抢沙发
    一个资源只可评论一次,评论内容不能少于5个字
    img

    关注 私信 TA的资源

    上传资源赚积分,得勋章
    最新推荐
    论文研究-基于KD-树和K-means动态聚类方法研究.pdf 20积分/C币 立即下载
    1/6
    论文研究-基于KD-树和K-means动态聚类方法研究.pdf第1页
    论文研究-基于KD-树和K-means动态聚类方法研究.pdf第2页

    试读已结束,剩余4页未读...

    20积分/C币 立即下载 >