没有合适的资源?快使用搜索试试~ 我知道了~
【Spark篇01】Spark基础入门和环境安装 1
需积分: 0 0 下载量 75 浏览量
2022-08-04
16:43:25
上传
评论
收藏 754KB PDF 举报
温馨提示
试读
10页
1. 快:与 Hadoop的 MapReduce相比,spark基于内存的运算要快100倍以上,基于硬盘的运算也 2. 易用:spark支持Java、 Pyth
资源详情
资源评论
资源推荐
先理解,记忆是为了强化理解,不然它没有意义
Spark基础入门和环境安装
Spark概述
Spark是一种基于內存的快速、通用、可扩展的大数据分析引擎。 Spark得到了众多大数据公司
的支持,这些公司包括Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal、百度、腾讯、
京东、携程、优酷土豆。当前百度的Spark已应用于大搜索、直达号、百度大数据等业务;阿里利
用GraphX构建了大规模的图计算和图挖掘系统,实现了很多生产系统的推荐算法;腾讯Spark集
群达到8000台的规模,是当前已知的世界上最大的Spark集群。
Spark Core
Spark SQL
Spark Streaming
Spark MLlib
实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark
Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet,简称RDD)的API定义;
是Spark用来操作结构化数据的程序包。通过Spark SQL,我们可以使用 SQL或者Apache Hive版本
的SQL方言(HQL)来查询数据。Spark SQL支持多种数据源,比如Hive表、Parquet以及JSON等;
是Spark提供的对实时数据进行流式计算的组件。提供了用来操作数据流的API,并且与Spark Core中
的 RDD API高度对应;
提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等,还提供了模型评估、数
据 导入等额外的支持功能;
赵伊辰
- 粉丝: 56
- 资源: 314
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0