没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
第 1 章 Spark 概述
什么是 Spark
官网:http://spark.apache.org
Spark 是一种快速、通用、可扩展的大数据分析引擎,2009 年诞生于加
州大学伯克利分校 AMPLab,2010 年开源,2013 年 6 月成为 Apache 孵化项
目,2014 年 2 月成为 Apache 顶级项目。项目是用 Scala 进行编写。
目前,Spark 生态系统已经发展成为一个包含多个子项目的集合,其中
包 含 SparkSQL 、 SparkStreaming 、 GraphX 、 MLib 、 SparkR 等 子 项 目 ,
Spark 是 基 于 内 存 计 算 的 大 数 据 并 行 计 算 框 架 。 除 了 扩 展 了 广 泛 使 用 的
MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和
流处理。Spark 适用于各种各样原先需要多种不同的分布式平台的场景,包
括批处理、迭代算法、交互式查询、流处理。通过在一个统一的框架下支持
这些不同的计算,Spark 使我们可以简单而低耗地把各种处理流程整合在一
起。而 这样的组合,在实际的数据分析 过程中是很有意义的。不仅如此,
Spark 的这种特性还大大减轻了原先需要对各种平台分 别管理的负担。
大一统的软件栈,各个组件关系密切并且可以相互调用,这种设计有几
个好处:1、软件栈中所有的程序库和高级组件 都可以从下层的改进中获益。
2、运行整个软件栈的代价变小了。不需要运 行 5 到 10 套独立的软件系统
了,一个机构只需要运行一套软件系统即可。系统的部署、维护、测试、支
持等大大缩减。3、能够构建出无缝整合不同处理模型的应用。
Spark 的内置项目如下:
Spark Core:实现了 Spark 的基本功能,包含任务调度、内存管理、错
误恢复、与存储系统 交互等模块。 Spark Core 中还包含了对弹性分布式数
据集(resilient distributed dataset,简称 RDD)的 API 定义。
Spark SQL : 是 Spark 用 来 操 作 结 构 化 数 据 的 程 序 包 。 通 过 Spark
SQL,我们可以使用 SQL 或者 Apache Hive 版本的 SQL 方言(HQL)来查询
数据。Spark SQL 支持多种数据源,比 如 Hive 表、Parquet 以及 JSON 等。
Spark Streaming:是 Spark 提供的对实时数据进行流式计算的组件。
提供了用来操作数据流的 API,并且与 Spark Core 中的 RDD API 高度对应。
Spark MLlib:提供常见的机器学习(ML)功能的程序库。包括分类、回
归、聚类、协同过滤等,还提供了模型评估、数据 导入等额外的支持功能。
集群管理器:Spark 设计为可以高效地在一个计算节点到数千个计算节
点之间伸缩计 算。为了实现这样的要求,同时获得最大灵活性, Spark 支持
在各种集群管理器(cluster manager) 上运行,包括 Hadoop YARN、Apache
Mesos,以及 Spark 自带的一个简易调度 器,叫作独立调度器。
Spark 得 到 了 众 多 大 数 据 公 司 的 支 持 , 这 些 公 司 包 括
Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal、百度、阿里、腾讯、
京东、携程、优酷土豆。当前百度的 Spark 已应用于凤巢、大搜索、直达号、
百度大数据等业务;阿里利用 GraphX 构建了大规模的图计算和图挖掘系统,
实现了很多生产系统的推荐算法;腾讯 Spark 集群达到 8000 台的规模,是
当前已知的世界上最大的 Spark 集群。
Spark 特点
快
与 Hadoop 的 MapReduce 相比,Spark 基于内存的运算要快 100 倍以上,
基于硬盘的运算也要快 10 倍以上。Spark 实现了高效的 DAG 执行引擎,可
以通过基于内存来高效处理数据流。计算的中间结果是存在于内存中的。
易用
Spark 支持 Java、Python 和 Scala 的 API,还支持超过 80 种高级算法,
使用户可以快速构建不同的应用。而且 Spark 支持交互式的 Python 和 Scala
的 shell,可以非常方便地在这些 shell 中使用 Spark 集群来验证解决问题的
方法。
通用
Spark 提供 了统 一的 解决 方案 。 Spark 可以用于批处理、交 互式 查询
( SparkSQL ) 、 实 时 流 处 理 ( SparkStreaming ) 、 机 器 学 习 ( Spark
MLlib)和图计算(GraphX)。这些不同类型的处理都可以在同一个应用中
剩余38页未读,继续阅读
资源评论
卟离居士
- 粉丝: 0
- 资源: 2
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功