大数据Spark技术分享 用于库开发人员的Apache Spark 共158页.pdf
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
### 大数据Spark技术分享——面向库开发人员的Apache Spark #### 一、概述 《大数据Spark技术分享——面向库开发人员的Apache Spark》是一份关于Apache Spark的技术分享文档,共158页,旨在为库开发人员提供深入理解与实践Spark的方法与技巧。文档由William Benton(willb@redhat.com)和Erik Erlandson(eje@redhat.com)共同撰写。 #### 二、主要内容概览 ##### 1. 介绍 - **目标受众**:针对库开发者,尤其是对Apache Spark感兴趣的开发者。 - **核心主题**:文档围绕着如何创建可重用的Spark代码展开,涉及多个方面,如并行集合的通用函数、扩展DataFrame功能、将Java虚拟机(JVM)库暴露给Python等。 - **背景知识**:文档假设读者已经具备一定的编程基础,特别是对于Scala语言有一定的了解。 ##### 2. Silex 和 Isarn 库 - **Silex**:一个开源库,用于处理Spark相关的任务,提供了多个组件来简化开发过程。 - **Isarn**:另一个开源项目,专注于某些特定场景下的数据处理和分析。 - **适用版本**:文档中提到这些库自Spark 1.3.0版本以来就一直在跟踪维护,并持续更新以适应最新的Spark版本。 ##### 3. Forecast - **基本考虑**:这部分讨论了在开发可重用Spark代码时需要考虑的关键因素。 - **并行集合**:提供了通用函数来操作并行集合,这对于大规模数据集的操作非常重要。 - **扩展DataFrame**:介绍了如何通过自定义聚合函数来扩展DataFrame的功能,这对于数据分析非常有用。 - **JVM库与Python**:讨论了如何将JVM库暴露给Python环境,以便于在不同语言之间共享代码和资源。 ##### 4. 开发实践 - **跨版本编译**:文档展示了如何使用SBT工具进行跨版本编译,确保代码能够在不同的Scala版本上运行。 - 示例配置: ```scala scalaVersion := "2.11.11" crossScalaVersions := Seq("2.10.6", "2.11.11") ``` - 命令示例: ``` $ sbt +compile $ sbt "++ 2.11.11" compile ``` - **依赖管理**:“自带Spark”的概念,意味着用户可以根据自己的需求选择特定的Spark版本以及相关的依赖项。文档中提到了一些常用的Spark模块和其他库的版本号。 - 示例配置: ```scala libraryDependencies ++= Seq( "org.apache.spark" %% "spark-core" % "2.3.0" % Provided, "org.apache.spark" %% "spark-sql" % "2.3.0" % Provided, "org.apache.spark" %% "spark-mllib" % "2.3.0" % Provided, "joda-time" % "joda-time" % "2.7", "org.scalatest" %% "scalatest" % "2.2.4" % Test) ``` #### 三、结论 通过这份技术分享文档,库开发人员可以深入了解如何利用Apache Spark构建高效且可重用的数据处理和分析库。文档不仅提供了理论上的指导,还给出了具体的实践案例和配置示例,这对于实际开发工作具有很高的参考价值。无论是对于初学者还是有经验的开发者而言,这都是一份宝贵的资料。 《大数据Spark技术分享——面向库开发人员的Apache Spark》涵盖了从基础知识到高级实践的全面内容,是学习和应用Apache Spark不可或缺的一份指南。
剩余157页未读,继续阅读
- 粉丝: 458
- 资源: 7362
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助