没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
1.Spark及其生态圈简介.pdf 2.Spark编译与部署(上)--基础环境搭建.pdf 2.Spark编译与部署(下)--Spark编译安装.pdf 2.Spark编译与部署(中)--Hadoop编译安装.pdf 3.Spark编程模型(上)--概念及SparkShell实战.pdf 3.Spark编程模型(下)--IDEA搭建及实战.pdf 4.Spark运行架构.pdf 5.Hive(上)--Hive介绍及部署.pdf 5.Hive(下)--Hive实战.pdf 6.SparkSQL(上)--SparkSQL简介.pdf 6.SparkSQL(下)--Spark实战应用.pdf 6.SparkSQL(中)--深入了解运行计划及调优.pdf 7.SparkStreaming(上)--SparkStreaming原理介绍.pdf 7.SparkStreaming(下)--SparkStreaming实战.pdf 8.SparkMLlib(上)--机器学习及SparkMLlib简介.pdf 8.SparkMLlib(下)--SparkMLlib实战.pdf 9.SparkGraphX介绍及实例.pdf 10.分布式内存文件系统Tachyon介绍及安装部署.pdf
资源推荐
资源详情
资源评论
第 1 页 共 19 页 出自石山园,博客地址:http://www.cnblogs.com/shishanyuan
Spark Streaming 原理介绍
第 2 页 共 19 页 出自石山园,博客地址:http://www.cnblogs.com/shishanyuan
目 录
1 SPARK STREAMING简介 ...................................................................................................................................... 3
1.1 概述 ..................................................................................................................................................................... 3
1.2 术语定义 ............................................................................................................................................................. 3
1.3 S
TORM与SPARK STREMING比较 ......................................................................................................................... 4
2
运行原理 ..................................................................................................................................................................... 5
2.1 S
TREAMING架构 .................................................................................................................................................. 5
2.2 编程模型 ............................................................................................................................................................. 7
2.2.1
如何使用
Spark Streaming ................................................................................................................................ 8
2.2.2 DStream
的输入源
............................................................................................................................................ 9
2.2.3 DStream
的操作
.............................................................................................................................................. 11
2.3 容错、持久化和性能调优 ............................................................................................................................... 16
2.3.1
容错
................................................................................................................................................................ 16
2.3.2
持久化
............................................................................................................................................................ 18
2.3.3
性能调优
........................................................................................................................................................ 18
第 3 页 共 19 页 出自石山园,博客地址:http://www.cnblogs.com/shishanyuan
Spark Streaming 原理介绍
1 Spark Streaming 简介
1.1 概述
Spark Streaming 是 Spark 核心 API 的一个扩展,可以实现高吞吐量的、具备容错机制的
实时流数据的处理。支持从多种数据源获取数据,包括 Kafk、Flume、Twitter、ZeroMQ、Kinesis
以及 TCP sockets,从数据源获取数据之后,可以使用诸如 map、reduce、join 和 window 等
高级函数进行复杂算法的处理。最后还可以将处理结果存储到文件系统,数据库和现场仪表盘。
在“One Stack rule them all”的基础上,还可以使用 Spark 的其他子框架,如集群学习、图
计算等,对流数据进行处理。
Spark Streaming 处理的数据流图:
Spark 的各个子框架,都是基于核心 Spark 的,Spark Streaming 在内部的处理机制是,接
收实时流的数据,并根据一定的时间间隔拆分成一批批的数据,然后通过 Spark Engine 处理这
些批数据,最终得到处理后的一批批结果数据。
对应的批数据,在 Spark 内核对应一个 RDD 实例,因此,对应流数据的 DStream 可以看
成是一组 RDDs,即 RDD 的一个序列。通俗点理解的话,在流数据分成一批一批后,通过一个
先进先出的队列,然后 Spark Engine 从该队列中依次取出一个个批数据,把批数据封装成一
个 RDD,然后进行处理,这是一个典型的生产者消费者模型,对应的就有生产者消费者模型的
问题,即如何协调生产速率和消费速率。
1.2 术语定义
离散流(discretized stream)或 DStream:这是 Spark Streaming 对内部持续的实时数
据流的抽象描述,即我们处理的一个实时数据流,在 Spark Streaming 中对应于一个
剩余18页未读,继续阅读
资源评论
ansoncloud
- 粉丝: 5
- 资源: 31
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Serial Attach SCSI -5 protocal -SCSI 协议
- GitHub 是一个基于 Git 版本控制系统的在线代码托管平台,它不仅提供分布式版本控制,还提供了多种协作功能,使得软件开发者
- 车油口挡板开关闭合检测数据集VOC+YOLO格式138张2类别.zip
- 安装Linux操作系统是一个相对直接的过程,但需要根据您的具体需求和硬件配置来选择合适的发行版 以下是一份通用的Linux安装指
- 数据库SQL实战题目汇总.zip
- 基于深度学习实现驾驶员分心驾驶行为识别项目源码+数据集+模型+毕设论文
- 技术资料分享非常好的通俗易懂的开关电源原理与维修7.zip
- 数据库SQL实战题目汇总.zip
- NVM exporess 1.3 gold 文档
- linux操作系统基础命令.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功