没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示


试读
3页
Spark 框架的Graphx 算法研究 陈虹君 (电子科技大学成都学院,四川成都611731) 摘要:随着搜索引擎对网页的排名的需要,以及社交网络的兴起,海量关系所产生的大数据需要得到处理。图计算在数据 关系的分析上发挥着其巨大的潜能。Spark 框架是Hadoop 大数据平台上整合能力强,处理速度快的内存模型框架,它的图 处理Graphx 也得到快速发展。该文先介绍Spark 框架与Graphx 的关系与发展。接着分析了Graphx 中的三个典型的算 法。最后总结了Graphx 的场景应用。 关键词:大数据;Hadoop;Spark;图计算;Graphx;PageRank 中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)01-0075-03
资源推荐
资源详情
资源评论











Computer Knowledge and Technology
电脑知识与技术
第 11 卷第 01 期 (2015 年 01 月)
软件设计开发
本栏目责任编辑:谢媛媛
Spark 框架的 Graphx 算法研究
陈虹君
(电子科技大学 成都学院,四川 成都 611731)
摘要:随着搜索引擎对网页的排名的需要,以及社交网络的兴起,海量关系所产生的大数据需要得到处理。图计算在数据
关系的分析上发挥着其巨大的潜能。Spark 框架是 Hadoop 大数据平台上整合能力强,处理速度快的内存模型框架,它的图
处理 Graphx 也得到快速发展。该文先介绍 Spark 框架与 Graphx 的关系与发展。接着分析了 Graphx 中的三个典型的算
法。最后总结了 Graphx 的场景应用。
关键词:大数据;Hadoop;Spark;图计算;Graphx;PageRank
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)01-0075-03
Research on Graphx Algorithms in Spark Framework
CHEN Hong-jun
(Chengdu College of University of Electronic Science and Technology of China, Chengdu 611731, China)
Abstract: As the search engine need of Webpage ranking, and the rise of social networking, large mass data relations need to pro⁃
cess. Graph calculation plays its great potential in the analysis of data relationship. The Spark framework is memory model frame
which is deployed on Hadoop. It has great integration ability; high processing speed.So the graph processing Graphx also ob⁃
tained the fast development. In this paper, firstly introduce the relation and development of Spark framework and Graphx. Then
analyze the three typical algorithms in Graphx. Finally sum up the scene using Graphx.
Key words: big data; Hadoop; Spark; graphs computing; Graphx; PageRank
图计算可以用来处理复杂的数据联系。比如:整个社交网站就像一个关系网一样,处处充满了联系。在大数据时代,网络关
系日益丰富的今天,大数据的图处理正迅猛发展。而图在数据分析上的典型应用就是 Facebook、twitter 这样的社交网站上的对用
户及话题的分析,因为用户之间可能随时都会产生新的联系,不同用户对于不同话题也有不同的倾向。
图用顶点(vertex)来表示数据对象,用边(edge)来表示数据之间的联系,而边的权值可以是价值、身份、时间等各种抽象或者逻
辑上的意义。图可以转化为数学上的邻接矩阵,因此对图的各种算法应用大多都要建立在数学之上;图的应用算法需要用数学公
式来分析和证明,同样一个图能否并行处理也要依赖于它相应的数据矩阵是否可以再分。
1 Spark 框架与 Graphx
Spark是基于内存的编程模型,它可以把中间的迭代过程不放在磁盘中,直接数据不落地在内存中执行,极大地提高了它的执
行速度。Spark 分为四大模块:Spark SQL-RDD(数据执行的基本单元),MLlib(机器学习)、Graphx(图计算),Spark Streaming(实时
处理),整个框架形成了大数据处理各种应用场景编程的一致性。
GraphX 是新的(alpha)Spark 用于图表和图形,并行计算的的 API。 GraphX 在一个高层次上, 延伸了 Spark RDD。 通过引入
Resilient Distributed Property Graph (弹性分布式属性图): 一个有向多重图能附加每个顶点属性和边的属性。为了支持图形计算,
GraphX 公开了一组基本的运算符,比如:subgraph (子图)、joinVertices、mapReduceTriplets,以及一个最优的转变的 Pregel API. 此
外, GraphX 包含一个对图形算法(algorithms)和构建器 (builders) 不断增长的包集合,用以简化图形分析任务。
在 GraphX 的发布之前,Spark 中的图形计算使用 Bagel 来表达, 即对 Pregel 的实现。 GraphX 改进了 Bagel 通过更丰富的特性图
形 API,使用比 Pregel 更精简的版本, 使系统得到优化,提升了性能并减少了内存开销。
2 Graphx 算法
Graphx 作为 Spark 的图处理框架,支持以下算法:PageRank 算法、ConnectedComponents 算法、TriangleCounting 算法等。PageR⁃
ank 算法是 Google 专有的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。ConnectedComponents 算
法,用于找出与该主题有关的用户。TriangleCounting 算法,用于找出与该用户具有最稳定关系的朋友圈。
收稿日期:2014-12-06
作者简介:陈虹君(1979-),女,成都市郫县人,副教授,硕士,研究方向为大数据应用。
E-mail: xsjl@dnzs.net.cn
http://www.dnzs.net.cn
Tel:+86-551-65690963 65690964
ISSN 1009-3044
Computer Knowledge and Technology
电脑知识与技术
Vol.11, No.1, January 2015
75
DOI:10.14004/j.cnki.ckt.2015.0024
资源评论

- qin_20003242017-08-04不错,内容介绍的到位
- lwjyqjykn2015-08-27这个论文不错,找了好久,感谢分享

1122lhf
- 粉丝: 0
- 资源: 4
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 2213springboot基于web的智内含有完整的项目工程(idea工程+数据库代码)+项目部署视频+项目讲解视频(搞定答辩
- 计算机网络课程设计 即时通讯软件Minet
- indy10 Demo 资源
- 2208springcloud分布式架构网内含有完整的项目工程(idea工程+数据库代码)+项目部署视频+项目讲解视频(搞定答辩
- indy9 Demo 及 Delphi 来与网络与君分享源码
- 内含有完整的项目工程(idea工程+数据库代码)+项目部署视频+项目讲解视频
- 计算机网络学习实验代码
- 2205springboot财务管理系统内含有完整的项目工程(idea工程+数据库代码)+项目部署视频+项目讲解视频
- 2204springboot4S店车辆管理系统内含有完整的项目工程(idea工程+数据库代码)+项目部署视频+项目讲解视频
- 2203springboot实习管理系统内含有完整的项目工程(idea工程+数据库代码)+项目部署视频+项目讲解视频
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制
