论文研究-改进聚类的索引建立方法研究.pdf

所需积分/C币:9 2019-09-12 17:10:28 651KB .PDF
0
收藏 收藏
举报

传统的基于网格与密度的聚类方法需要用户输入间隔距离和密度阀值参数,聚类的结果不平滑,不能很好地判断边界对象的网格归属。提出了一种自动根据对象的数量确定间隔的距离和聚类的数量的聚类方法,合理地将对象进行聚类划分,并将聚类的结果构建Hilbert R-tree索引,通过实验表明算法在建立时间和其他性能上均优于传统的Hilbert R-tree索引。
1082010,46(2) Computer Engineering and Applications计算机工程与应用 (4)扩展稠密网格,将相邻稀疏单元内的数据也添加到当 表2NIR和IR叶子面积和总面积的对比 前稠密区域内; NHR HR NHR/HR (5)在形成的稠密区域内的求出数据的 Hilbert值,按照升 叶子面积1.031.311.27 数据集1 序进行排列,构建HR索引 总面积1.421.921.35 数据集2叶子面积1.171.511.29 总面积1.682.211.32 4实验结果 1.291.7 1.33 测试的硬件环境是2.0 MHZ CPU及512M内存,实验采用 数据集3叶子面积 总面积1.932.431.26 3个包含不同数据量的数据集对算法进行测试,表1在执行时 实际数据集叶子 叶子面积1.582931.85 间等方面对聚类算法进行了对比。 总面积2594.87188 表1改进的聚类算法和 CLIQUE算法时间的对比 论如何对数据进行查询,仍然需要遍历相同的深度,而该文的 算法的执行时间/ms 算法克服了此缺点,根据数据量的多少,合理建立HR树,当数 数据集数据点的数量 新的聚类算法 CLIOUF算法 据量较小时,树的高度也随之降低,从而减少查询和遍历的高 数据集 4258 351 度,提高查询效率。 数据集2 13521 91 在索引的建立上,由于先对空间的数据进行聚类,因此每个 数据集3 21486 1548 1483 聚类内的数据不是很多,而且数据相对比较集中,在建立相应索 实验中该文采用不同的数据量去构建索引,从数据集中抽引的时候相应的结点面积也会随之而减少,因此建立的时间也 取部分的数据来构建,进而对索引的建立时间进行对比,利用会相应的减少,从图2可以看出,随着数据量的增加,这种优势 几次的平均值去作为对比的数据,实验结果如图2所示。 体现的更加明显,NHR树在一定程度上提高了索引的性能。 18 索引性能的指标η主要是覆盖和重叠面积,这是衡量索引 NHR HR 质量的两个重要因素,分别对3个数据集进行建立索引,并对 14 比索引屮结点的面积,叶子的面积和全部的总面积,从表2屮 1200 可以看出随着数据量的增加,NHR树的性能提高更多,尤其是 000 对实际数据进行测试的时候,实际数据中数据分布密度不均匀 对于此类的数据集,NHR树的性能比传统的HR树无论在叶 子结点的面积还是全部结点的面积都有大幅度的减小,平均提 高都在30%左右,对于密度有一定偏斜的实际数据,性能提升 3000 90001500021000 的更多。 数据量∧个 图2NHR和HR索引的建立时间对比 6结束语 实际数据是采用10K的数据集,其中的数据分布不一致 HR树在建立索引的过程中,对数据先进行排序,只是排 密度不是均匀的,截取部分主要的数据如图3所示。 序的结果并未是最优的结果,而可能将不相邻的对象存放在同 叶子结点中,因此改进的构造算法多半是基于此进行,该文 中是采用聚类的方法先将数据进行大致的分割,然后再进行索 引的建立,将高维数据降低维度,使空间中相对稠密的区域和 豪辛 稀疏区域根据实际情况建立相适应的索引结构,效率也有了很 大程度的提高。 文中先利用改进的网格和密度的聚类算法对空间数据进 行聚类,然后分别对聚类的结果进行建立索引,用三个不同的 数据集和一个实际数据集对新的索引方法进行验证,从实验的 结果可知,在存储利用率上仍然保持了原有HR树的高存储率, 图310K的实际的数据集 其他的相关性能指标却有了很大程度的提高,在建立索引的时 NHR和HR两个索引在叶子结点面积和总面积上进行对间和结点的面积上都有了很大的提高,NHR树的优势性能还 比,在3个数据集和一个实际数据集上对性能进行对比,对比是比较明显的,尤其对于密度分布不均匀的数据集,优势更加 的结果如表2所示。 的突出。将聚类和索引相结合的办法,虽然性能有了很大的提 高,但还有一些问题需要继续的研究,比如聚类的精度、其他的 5性能分析 性能指标的对比评价等,因此索引的相关研究内容仍然继续会 采用网格管理的模式,更加符合人们的习惯,可以根据数受到人们的关注并进一步的研究。 据的数量划分网格,而且通过对聚类的改进提高聚类的精度, 使得距离相近的结点在同一聚类内部,由于网格的特点,将数参考文献: 据进行分割,每个数据最后只被索引一次。原始的HR树是对1] Han w, Kamber M数据挖掘概念与技术M范明,孟小峰,译北 全部的数据进行排序,然后建立相应的R树索引,每个根结点 京:机械工业出版社,2001. 到叶子结点的路径是一样的,对于密度不均匀的空间数据,无 (下转159页)

...展开详情
试读 3P 论文研究-改进聚类的索引建立方法研究.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
抢沙发
一个资源只可评论一次,评论内容不能少于5个字
weixin_38744435 如果觉得有用,不妨留言支持一下
2019-09-12
  • 至尊王者

    成功上传501个资源即可获取
关注 私信 TA的资源
上传资源赚积分or赚钱
    最新推荐
    论文研究-改进聚类的索引建立方法研究.pdf 9积分/C币 立即下载
    1/3
    论文研究-改进聚类的索引建立方法研究.pdf第1页

    试读结束, 可继续阅读

    9积分/C币 立即下载 >