论文研究-RDD上扩展索引层优化的分布式K-means算法.pdf


-
K-means是经典的聚类算法,为了适应大规模数据,很多研究利用分布式计算提高其扩展性。但传统基于磁盘的分布式系统仍然存在大量I/O消耗,在基于内存的Spark系统上实现,在继承Spark平台低读写消耗和良好容错性等优点的基础上,扩展了Spark的机器学习MLlib库,在此之上增加一个索引层,引入包含多种策略的基于RDD的双级索引机制,采用新的数据划分方式,对空间距离相近的点的信息进行预处理,利用索引存储其对应的点集的概括信息,以便在K-means算法中对搜索空间剪枝,从而达到对K-means算法的优化。实验结果表明,索引层能够剪枝搜索空间达40%以上,相对无优化的分布式K-means,提升效

-
2019-09-11
599KB
论文研究-基于Spark的并行频繁模式挖掘算法.pdf
2019-09-10在大数据环境下Apriori频繁模式挖掘算法在数据处理过程具有预先设定最小阈值、时间复杂度高等缺陷, 为此采用多阶段挖掘策略实现并行化频繁模式挖掘算法PTFP-Apriori。首先将预处理数据以模式树
10KB
Spark学习--RDD编码
2017-05-09RDD:弹性分布式数据集(ResilientDistributed Dataset),是Spark对数据的核心抽象。RDD其实是分布式的元素集合。当Spark对数据操作和转换时,会自动将RDD中的数据
220KB
hbase-rdd, 从HBase读取并写入 RDD.zip
2019-09-18hbase-rdd, 从HBase读取并写入 RDD ? 这个项目允许将 Apache Spark 连接到 HBase 。 现在可以在 Scala 2.10和版本 2.11上使用Spark和 CDH5
442KB
6-RDD操作.pdf
2020-04-14zijiyongde实验
87.7MB
03-RDD map算子详解.mp4
2021-02-09RDD map算子详解
66.1MB
06-RDD常用action算子详解.mp4
2021-02-09RDD常用action算子
67.71MB
03-RDD五大特性详解.mp4
2021-02-09RDD五大特性详解
39.97MB
05-RDD mapValues算子详解.mp4
2021-02-09RDD mapValues算子详解
89.28MB
03-RDD中join的使用深度详解.mp4
2021-02-09RDD中join的使用深度详解
51.10MB
04-RDD filter结合map算子详解.mp4
2021-02-09RDD filter结合map算子
63.62MB
04-RDD五大特性在源码中的体现.mp4
2021-02-09RDD五大特性在源码中的体现
2.24MB
spark rdd 论文翻译_中文_spark老汤
2017-09-14包含了spark rdd的原版英语论文以及spark老汤根据原版论文翻译的中文版论文,详细的介绍了spark的核心抽象-RDD,非常适合喜欢spark技术的同学阅读
54.82MB
05-RDD中subtract&intersection&cartesian使用详解.mp4
2021-02-09RDD中subtract&intersection&cartesian使用详解
332KB
spark API RDD
2014-09-05spark API RDD pdf版的..........对初学者应该有所帮助
220KB
hbase-rdd:Spark RDD从HBase读取,写入和删除-源码
2021-02-05hbase-rdd:Spark RDD从HBase读取,写入和删除
8KB
大数据基本要素HDFS MapReduce-and-Spark-RDD-源码
2021-02-12大数据基本要素HDFS MapReduce-and-Spark-RDD
127KB
SMPTE RDD-11-2007.pdf
2010-01-31Bitstream Syntax and Semantics for Carriage of HDSDI Ancillary Data in an MPEG-2 Transport Stream
1.2MB
spark RDD 论文
2016-09-09本文是spark RDD的基础论文,有非常好的指导意义。
43.57MB
05-图解RDD.mp4
2021-02-09图解RDD
968KB
数据分析实践 RDD 编程实践 实验报告
2020-07-30RDD(Resilient Distributed Datasets),弹性分布式数据集, 是分布式内存的一个抽象概念,RDD提供了一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,只能通过
1.61MB
RDD Guide.pdf
2020-11-21RDD Guide:如果想学习RDD,断点回归,先把这篇指南看看,但是是全英文的,不过很容易,有点儿基础都能看得懂,再去看些博文、文章什么的,RDD就能游刃有余了
34KB
Spark—-RDD介绍
2021-01-20一、概念 RDD(Resilient Distributed Datasets),弹性分布式数据集。特点是可以并行操作,并且是容错的。有两种方法可以创建RDD: 1.执行Transform操作(变换操
4KB
自定义RDD-从HDFS读取数据代码.zip
2020-03-19Spark自定义RDD从HDFS读取数据,实现和sc.textFile相同功能,代码测试通过,可以根据需求避免数据源数据倾斜
11.33MB
基于RDD的协同过滤推荐算法的研究与优化.pdf
2020-11-17摘要 摘 要 互联网的普及和物联网的迅速发展使得数据已进入自动产生阶段随之人类进入了大 数据时代如何高效地处理和利用这些数据成为了挑战推荐系统的出现有效缓解了信息 过载带给人们的困扰推荐算法是推荐系统
136.25MB
02-什么是RDD.mp4
2021-02-09什么是RDD
3.51MB
大数据 Spark编程基础 第4章-RDD编程.ppt
2020-04-08rdd.filter(line=>line.contains(a) rdd.map(word=(word,1) rdd.reduceByKey(a,b)=>a+b) rdd.flatMap(line=
114B
大数据系统基础(自主模式)-清华大学-王建民、徐葳、陈康等 视频.txt
2019-05-29│ docs.rar │ 免责声明.txt │ 抓取档目录结构.txt │ 课程介绍及抓取说明.txt │ 课程封面图-大数据系统基础(自主模式).jpg │ 课程简介-大数据系统基础(自主模式).m
2.94MB
大数据 Spark编程基础(Scala版)-第5章-RDD编程.ppt
2020-04-075.4.4 案例4二次排序 二次排序具体的实现步骤 * 第一步按照Ordered和Serializable接口实现自定义排序的key * 第二步将要进行二次排序的文件加载进来生成<key,value>
267KB
Spark RDD.docx
2020-03-29Spark 的核心是建立在统一的抽象弹性分布式数据集(Resiliennt Distributed Datasets,RDD)之上的,这使得 Spark 的各个组件可以无缝地进行集成,能够在同一个应用
89.78MB
02-从宏观角度看RDD Operations.mp4
2021-02-09RDD Operations
-
博客
6-3 简单求和 (10 分)
6-3 简单求和 (10 分)
-
下载
chat-app-源码
chat-app-源码
-
博客
图解如何在Linux上配置git自动登录验证
图解如何在Linux上配置git自动登录验证
-
学院
朱老师鸿蒙系列课程第1期-3.鸿蒙系统Harmonyos源码配置和管理
朱老师鸿蒙系列课程第1期-3.鸿蒙系统Harmonyos源码配置和管理
-
下载
Master-Registry-源码
Master-Registry-源码
-
学院
Android APP 性能和自动化测试框架精品课程
Android APP 性能和自动化测试框架精品课程
-
博客
1060 Are They Equal (25 分)
1060 Are They Equal (25 分)
-
博客
2021年烟花爆竹储存考试资料及烟花爆竹储存证考试
2021年烟花爆竹储存考试资料及烟花爆竹储存证考试
-
学院
C/C++反汇编解密
C/C++反汇编解密
-
学院
python Flask+scrapy+人工智能 实现高性能搜索引擎
python Flask+scrapy+人工智能 实现高性能搜索引擎
-
学院
MySQL 数据库权限管理(用户高级管理和精确访问控制)
MySQL 数据库权限管理(用户高级管理和精确访问控制)
-
学院
Cocos Creator游戏开发-合成大西瓜 CocosCreat
Cocos Creator游戏开发-合成大西瓜 CocosCreat
-
学院
C#Winform桌面开发编程上位机基础入门
C#Winform桌面开发编程上位机基础入门
-
博客
IOC创建对象的方式
IOC创建对象的方式
-
博客
LeetCode 27 移除元素 Python3
LeetCode 27 移除元素 Python3
-
学院
MySQL 主从复制 Replication 详解(Linux 和 W
MySQL 主从复制 Replication 详解(Linux 和 W
-
学院
MySQL 多平台多模式(安装、配置和连接 详解)
MySQL 多平台多模式(安装、配置和连接 详解)
-
博客
第 45 届国际大学生程序设计竞赛(ICPC)亚洲网上区域赛模拟赛 E Eat Walnuts
第 45 届国际大学生程序设计竞赛(ICPC)亚洲网上区域赛模拟赛 E Eat Walnuts
-
下载
RESite-源码
RESite-源码
-
博客
uniapp中定位指定的经纬度
uniapp中定位指定的经纬度
-
学院
《文件过滤及内容编辑处理命令》<Linux核心命令系列Series>
《文件过滤及内容编辑处理命令》<Linux核心命令系列Series>
-
下载
Suicidal_Sentiment_Analysis-源码
Suicidal_Sentiment_Analysis-源码
-
学院
计算机网络 应用层 诸多协议 实验环境搭建
计算机网络 应用层 诸多协议 实验环境搭建
-
学院
MySQL 事务和锁
MySQL 事务和锁
-
博客
Lambda表达式
Lambda表达式
-
博客
第 45 届国际大学生程序设计竞赛(ICPC)亚洲区域赛(济南) G Xor Transformation
第 45 届国际大学生程序设计竞赛(ICPC)亚洲区域赛(济南) G Xor Transformation
-
下载
react-quiz-源码
react-quiz-源码
-
学院
基于SSM实现的房屋租赁系统【附源码】(毕设)
基于SSM实现的房屋租赁系统【附源码】(毕设)
-
下载
电容补偿的扫描电导显微镜的同相偏置调制模式
电容补偿的扫描电导显微镜的同相偏置调制模式
-
学院
MySQL 触发器
MySQL 触发器