分布式flink平台搭建_flink-streaming-platform-web资源-CSDN文库

需积分: 50 184 浏览量 2018-03-05 10:22:33 上传评论收藏 2.51MB PDF 举报

资源推荐

资源详情

资源评论

简介 Apache Flink

Apache Flink 是一个面向分布式数据流处理和批量数据处理的开源计算平

台，它能够基于同一个 Flink 运行时（Flink Runtime），提供支持流处理和批处

理两种类型应用的功能。现有的开源计算方案，会把流处理和批处理作为两种

不同的应用类型，因为他们它们所提供的 SLA 是完全不相同的：流处理一般需

要支持低延迟、Exactly-once 保证，而批处理需要支持高吞吐、高效处理，所

以在实现的时候通常是分别给出两套实现方法，或者通过一个独立的开源框架

来实现其中每一种处理方案。例如，实现批处理的开源方案有 MapReduce、

Tez、Crunch、Spark，实现流处理的开源方案有 Samza、Storm。Flink 在实现流

处理和批处理时，与传统的一些方案完全不同，它从另一个视角看待流处理和

批处理，将二者统一起来：Flink 是完全支持流处理，也就是说作为流处理看待

时输入数据流是无界的；批处理被作为一种特殊的流处理，只是它的输入数据

流被定义为有界的。基于同一个 Flink 运行时（Flink Runtime），分别提供了流

处理和批处理 API，而这两种 API 也是实现上层面向流处理、批处理类型应用

框架的基础。

流处理特性

• 支持高吞吐、低延迟、高性能的流处理

• 支持带有事件时间的窗口（Window）操作

• 支持有状态计算的 Exactly-once 语义

• 支持高度灵活的窗口（Window）操作，支持基于 time、count、session，

以及 data-driven 的窗口操作

• 支持具有 Backpressure 功能的持续流模型

• 支持基于轻量级分布式快照（Snapshot）实现的容错

• 一个运行时同时支持 Batch on Streaming 处理和 Streaming 处理

• Flink 在 JVM 内部实现了自己的内存管理

• 支持迭代计算

• 支持程序自动优化：避免特定情况下 Shuffle、排序等昂贵操作，中间结

果有必要进行缓存

JobManager 是 Flink 系统的协调者，它负责接收 Flink Job，调度组成 Job 的多

个 Task 的执行。同时，JobManager 还负责收集 Job 的状态信息，并管理 Flink

集群中从节点 TaskManager。TaskManager 也是一个 Actor，它是实际负责执行

计算的 Worker，在其上执行 Flink Job 的一组 Task。每个 TaskManager 负责管

理其所在节点上的资源信息，如内存、磁盘、网络，在启动的时候将资源的状

态向 JobManager 汇报。

剩余19页未读，继续阅读

内容反馈

sinat_28966361

粉丝: 0
资源: 1

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip