没有合适的资源?快使用搜索试试~ 我知道了~
flink技术的详细参考手册,包含了flink简介,安装部署,原理介绍,demo演示,流处理等。强烈推荐大数据,尤其是流处理人员学习。
资源推荐
资源详情
资源评论
Flink 技术参考手册
1
目录
学习前置........................................................3
一、Flink 简介...................................................3
Flink 是什么?...............................................3
为什么选择 Flink?...........................................7
传统数据处理架构............................................7
Flink 的主要特点.............................................9
二:Flink demo 项目 ............................................10
三:Flink 的部署................................................14
四、Flink 运行架构..............................................17
Flink 运行时的组件..........................................18
任务提交流程...............................................20
任务提交流程(Yarn) ......................................21
任务调度原理...............................................21
TaskManager 和 Slots ......................................21
程序与数据流(DataFlow)..................................23
执行图.....................................................24
并行度(Parallelism) ......................................25
任务链(Operator Chains) .................................26
五、Flink 流处理 API ............................................27
Environment ..............................................27
Source ....................................................28
Flink 技术参考手册
2
Transform .................................................31
支持的数据类型.............................................39
六、时间语义与 Wartermark ....................................41
Flink 中的时间语义.........................................41
EventTime 的引入...........................................42
Watermark..................................................42
Flink 面试题 .......................................................48
第一部分:Flink 中的核心概念和基础考察.........................49
第二部分:Flink 面试进阶篇.....................................62
第三部分:Flink 面试源码篇.....................................68
Flink 技术参考手册
3
学习前置
1. 有一定了解实时处理
2. 了解分布式常见概念
一、Flink 简介
Flink 是什么?
Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据
流进行状态计算,Flink 是一个分布式计算框架。Apache Flink 是由
Apache 软件基金会开发的开源流处理框架,其核心是用 Java 和
Scala 编写的分布式流数据流引擎。Flink 以数据并行和流水线方式执
行任意流数据程序,Flink 的流水线运行时系统可以执行批处理和流处
理程序。此外,Flink 的运行时本身也支持迭代算法的执行。
Flink 可以搭建廉价机群,快速处理任意规模的数据。
Flink 总体架构如图,从左往右看。
Flink 技术参考手册
4
Flink 的实时处理是一个个 Event(事件)驱动的(类比 Kafka,
Flume),不同于 Spark Streaming 中微批次。
(1)Flink 的架构
简单理解无界流和有界流
无界流:流数据不会停止,没有边界,需要实时处理,绝对的实时处
理,来一条,处理一条。
有界流:定义了数据的范围,类比 Spark-Streaming 中的微批次处
理,Hive 离线 Mr 处理。
Flink 擅长于处理无界数据流(例如 Kafka 里的日志数据),有界数据
集。
Fink 可以部署在 Yarn,K8s,Mesos 多种资源调度框架中。
Flink 技术参考手册
5
Fink 可以处理任意数据量级。
� 上万亿的 Event 处理。
� 维护 TB 级别的处理状态。(类比 Spark RDD 中 Cache,持久化 TB
级别的处理状态)
� 运行在上千个核心的机群中。
Flink 的状态持久化的优化
� 当 Flink 计算 Task 中内存不足时候,Flink 通过特殊的数据结构,高
效的持久化到本地磁盘。
� Flink 会周期的异步持久化计算状态,防止 Task 进程挂掉,Task 主机
意外宕机。并保证持久化数据的一致性。
� Flink 提供了 CheckPoint,可以异步的将计算状态持久化到持久层
(如 HDFS,本地文件系统)
(2)Flink 的应用
关于流处理的一些基本概念
流处理:
剩余71页未读,继续阅读
资源评论
张折耳
- 粉丝: 4977
- 资源: 218
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于matlab 概率神经网络的分类预测-基于PNN的变压器故障诊断源代码+详细教程
- IMG_2779.PNG
- 基于matlab Elman神经网络的数据预测-电力负荷预测模型研究源代码+详细教程
- 架构师软考知识点整理2
- 基于matlab SOM神经网络的数据分类-柴油机故障诊断源代码+详细教程
- 2023.cpp
- 基于matlab 自组织竞争网络在模式分类中的应用-患者癌症发病预测源代码+详细教程
- 在线考试系统 JAVA+Spring+SpringMVC+MyBatis
- 毕业设计基于Python卷积神经网络CNN的图像分类系统源码+模型+说明文档+全部数据资料.zip
- matlab 基于SVM的手写字体识别源代码+详细教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功