没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
试读
20页
Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。 Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。 本文档整理了spark所有的基本知识,带你入门spark,让你可以更详细的去了解spark,也为日后深入学习,打下良好的基础。Spark是一个通用引擎,可用它来完成各种各样的运算,包括 SQL 查询、文本处理、机器学习等,而在 Spark 出现之前,我们一般需要学习各种各样的引擎来分别处理这些需求。
资源推荐
资源详情
资源评论
1
最
全
的
S
p
a
r
k
基
础知
识解
答
⼀
.
S
p
a
r
k
基
础知
识
.
S
p
a
r
k
是
什么
?
.
S
p
a
r
k
与
H
ad
oop
的
对
⽐
(
S
p
a
r
k
的
优
势
)
.
S
p
a
r
k
有
那
些
组
件
⼆
.
D
a
t
a
F
r
a
m
e
相
关
知
识
点
.
D
a
t
a
F
r
a
m
e
是
什么
?
.
D
a
t
a
F
r
a
m
e
与
R
DD
的
主
要
区
别
在
于
?
.
D
a
t
a
F
r
a
m
e
特
性
三
.
R
DD
相
关
知
识
点
.
R
DD
,
全
称
为
?
.
R
DD
的
特点
?
.
R
DD
核
⼼
概
念
.
R
DD
常
⻅
术
语
.
R
DD
提
供了
两
种
类
型
的
操
作
:
.
R
DD
中
关
于
转
换
(
tr
a
ns
f
orm
a
t
i
on
)
与
动
作
(
ac
t
i
on
)
的
区
别
.
R
DD
与
D
S
M
的
最
⼤
不
同
是
?
.
R
DD
的
优
势
?
.
如
何
获
取
R
DD
?
.
R
DD
都
需
要
包
含
以
下
四
个
部
分
.
R
DD
中
将
依
赖
的
两
种
类
型
四
、
S
p
a
r
k
S
tr
ea
m
i
n
g
相
关
知
识
点
.
S
p
a
r
k
S
tr
ea
m
i
n
g
的
基
本
原
理
S
p
a
r
k
S
tr
ea
m
i
n
g
优
劣
四
.
⽇
志
系统
五
.
分
布
式
搜
索
搜
索
引
擎
是
什么
?
L
u
ce
n
e
是
什么
?
E
la
st
ic
s
ea
r
ch
是
什么
?
2
E
la
st
ic
S
ea
r
ch
有
中
⽅
式
来构
建
数据
库
ELK
是
⼀
套
常
⽤
的
开
源
⽇
志
监
控
和
分
析
系统
六
.
分
布
式
数据
库
H
i
v
e
H
i
v
e
是
什么
?
H
i
v
e
的
设计
⽬
标
?
H
i
v
e
的
数据
模
型
H
i
v
e
的
调
⽤
⽅
式
H
i
v
e
的
运
⾏
机
制
H
i
v
e
的
优
势
H
i
v
e
应
⽤
场
景
H
i
v
e
不
适
⽤
场
景
H
i
v
e
和
数据
库
(
R
DBM
S
)
的
区
别
七
、
其
他
知
识
点
数据
分
析
常
⻅
模
式
:
S
cala
的
好处
:
E
la
st
ic
S
ea
r
ch
基
础
代
码
:
⼋
、
基
础
问
答
题
Q
:
你
理
解
的
H
i
v
e
和
传
统
数据
库
有
什么
不
同
?
各
有
什么
试
⽤
场
景
。
Q
:
H
i
v
e
的
实
⽤
场
景
Q
:
⼤
数据
分
析
与
挖掘⽅
法
论被
称
为
C
R
I
SP
-
DM
⽅
法
是
以
数据
为中
⼼
迭
代
循
环
进
⾏
的
六
步
活
动
Q
:
数据
分
析
挖掘⽅
法
⼤
致
包
含
(
)
:
Q
:
在
数据
分
析
与
挖掘
中
对
数据
的
访
问
性
要
求
包
括
Q
:
S
p
a
r
k
作为
计
算
框架
的
优
势
是
什么
?
UCBerkeley AMPlab
所
开
源
的
类
HadoopMapReduce
的
通
⽤
的
并
⾏计
算
框架
。
dfsSpark
基
于
mapreduce
算
法
实
现
的
分
布
式
计
算
,
拥
有
HadoopMapReduce
所
具
有
的
优
点
;
但
不
同
于
MapReduce
的
是
Job
中
间
输
出
和
结
果
可
以保
存
在
内
存
中
,
从
⽽
不
再
需
要读
写
HDFS
,
因
此
Spark
能
更
好
地
适
⽤
于
数据挖掘
与
机
器
学
习
等
需
要
迭
代
的
map reduce
的
算
法
。
⼀
. Spark
基
础知
识
1.Spark
是
什么
?
3
1
、
Spark
的
中
间
数据放
到内
存
中
,
对
于
迭
代
运
算
效
率
更
⾼
2
、
Spark
⽐
Hadoop
更
通
⽤
3
、
Spark
提
供了
统
⼀
的
编
程
接
⼝
4
、
容
错
性
–
在
分
布
式
数据
集
计
算
时
通过
checkpoint
来
实
现
容
错
5
、
可
⽤
性
–
Spark
通过
提
供丰
富
的
Scala, Java
,
Python API
及
交互
式
Shell
来
提
⾼
可
⽤
性
1
、
Spark Streaming
:
⽀
持
⾼
吞吐
量
、
⽀
持
容
错
的
实
时
流
数据
处
理
2
、
Spark SQL
,
Data frames:
结
构
化
数据
查
询
3
、
MLLib
:
Spark
⽣
态
系统
⾥
⽤
来
解
决
⼤
数据
机
器
学
习
问题
的
模
块
4
、
GraphX
是构
建
于
Spark
上
的
图
计
算
模
型
5
、
SparkR
是
⼀个
R
语⾔
包
,
它
提
供了
轻
量
级
的
⽅
式
使
得
可
以
在
R
语⾔
中使
⽤
Spark
DataFrame
是
⼀
种
以
RDD
为
基
础的
分
布
式
数据
集
,
类
似于传
统
数据
库
中
的
⼆
维
表
格
。
DataFrame
带
有
schema
元
信
息
,
即
DataFrame
所
表
示
的
⼆
维
表
数据
集
的
每
⼀
列
都
带
有
名
称
和
类
型
。
这
使
得
SparkSQL
得
以
洞
察
更
多
的
结
构
信
息
,
从
⽽
对
藏
于
DataFrame
背
后
的
数据
源
以
及
作
⽤
于
DataFrame
之
上
的
变
换
进
⾏
了
针
对
性
的
优
化
,
最
终
达
到
⼤
幅
提
升
运
⾏
时
效
率
的⽬
标
。
反
观
RDD
,
由
于
⽆
从
得
知
所
存
数据
元
素
的
具
体
内
部
结
构
,
Spark Core
只
能
在
stage
层
⾯
进
⾏
简
单
、
通
⽤
的
流
⽔
线
优
化
。
2.Spark
与
Hadoop
的
对
⽐
(Spark
的
优
势
)
3.Spark
有
那
些
组
件
⼆
. DataFrame
相
关
知
识
点
1.DataFrame
是
什么
?
2.DataFrame
与
RDD
的
主
要
区
别
在
于
?
3.DataFrame
特
性
剩余19页未读,继续阅读
资源评论
晓之以理的喵~~
- 粉丝: 3331
- 资源: 27
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功