Spark大数据技术与应用-第8章.pptx
Spark大数据技术与应用-第8章.pptx Spark大数据技术与应用的第8章主要讲述了GraphFrames的概念和应用。GraphFrames是基于Spark平台的图计算库,提供了高效的图计算能力。下面是本章节的知识点总结: 一、图的重要概念 * 图的定义:图是由顶点的非空有限集和边的有限集构成的,记作G=<V,E>。 * 度(Degree):对于无向图,顶点的度是指邻接于该顶点的边的总和。出度(Out-degree):以顶点v为起点的有向边数目。入度(In-degree):以顶点v为终点的有向边数目。 * 路径:图中顶点v到顶点w的顶点序列,序列中顶点不重复的路径称为简单路径。 * 回路:第一个顶点和最后一个顶点相同的路径。 * 连通、强连通:若从顶点v到顶点w有路径存在,则称v与w是连通的。若从顶点v到顶点w和从顶点w到顶点v都有路径存在,则称v和w是强连通的。 * 连通图、强连通图:任意两个节点之间是连通的。强连通图:任意两个节点之间是强连通的。 二、GraphFrames简介 * GraphFrames是基于DataFrame的图计算库,提供了高效的图计算能力。 * GraphFrames支持Python、Java和Scala三种语言,具有通用的图处理能力,封装了GraphX库的相关算法。 * GraphFrames继承了Spark SQL和DataFrame中的强力查询能力,可以使用简短的查询语言来处理图数据。 三、GraphFrames编程 * GraphFrame是GraphFrames API的核心抽象编程模型,是图的抽象,逻辑上可看作两部分:顶点DataFrame和边DataFrame。 * 顶点DataFrame必须包含列名"id",作为顶点的唯一标识。 * 边DataFrame必须包含列名为"src"和"dst",用来保存头和尾的唯一标识id。 * 创建GraphFrame实例需要使用sqlContext.createDataFrame方法,指定顶点和边的DataFrame。 四、GraphFrames安装 * GraphFrames库还没有并入Spark项目当中,使用该库时需要安装GraphFrames包。 * 在Jupyter Notebook中引入该jar文件:sc.addPyFile('/opt/install/spark-2.4.5/jars/graphframes-0.8.0-spark2.4-s_2.11.jar')
剩余43页未读,继续阅读
- 粉丝: 1
- 资源: 2
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助