论文研究-RDD上扩展索引层优化的分布式K-means算法.pdf

所需积分/C币:9 2019-09-11 03:12:02 1.04MB .PDF
7
收藏 收藏
举报

K-means是经典的聚类算法,为了适应大规模数据,很多研究利用分布式计算提高其扩展性。但传统基于磁盘的分布式系统仍然存在大量I/O消耗,在基于内存的Spark系统上实现,在继承Spark平台低读写消耗和良好容错性等优点的基础上,扩展了Spark的机器学习MLlib库,在此之上增加一个索引层,引入包含多种策略的基于RDD的双级索引机制,采用新的数据划分方式,对空间距离相近的点的信息进行预处理,利用索引存储其对应的点集的概括信息,以便在K-means算法中对搜索空间剪枝,从而达到对K-means算法的优化。实验结果表明,索引层能够剪枝搜索空间达40%以上,相对无优化的分布式K-means,提升效

...展开详情
试读 7P 论文研究-RDD上扩展索引层优化的分布式K-means算法.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
weixin_38744270 如果觉得有用,不妨留言支持一下
2019-09-11
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
  • 至尊王者

    成功上传501个资源即可获取
关注 私信
上传资源赚积分or赚钱
最新推荐
论文研究-RDD上扩展索引层优化的分布式K-means算法.pdf 9积分/C币 立即下载
1/7
论文研究-RDD上扩展索引层优化的分布式K-means算法.pdf第1页
论文研究-RDD上扩展索引层优化的分布式K-means算法.pdf第2页

试读结束, 可继续读1页

9积分/C币 立即下载 >