大数据技术之Flink.docx资源-CSDN文库

需积分: 46 16 浏览量 2019-11-20 10:27:52 上传评论 1 收藏 1.54MB DOCX 举报

Flink教程总结，对 Flink 的基本概念进行了讲解，包括基本架构、集群搭建、常用API介绍等，并对 Flink 的流处理进行了较为详细的解析，希望能够帮助同学们入门 Flink 技术框架，让同学们能够使用 Flink 完成更为完美的流式处理任务。 ### 大数据技术之Flink知识点详解 #### 1. 流处理技术的演变与Flink的出现 ##### 1.1 流处理技术的演变 - **Apache Storm**: 是流处理领域的先驱，最初由Nathan Marz及BackType团队开发。Storm支持低延迟的流处理，但牺牲了部分高吞吐量的能力，并且难以实现确切一次(exactly-once)处理语义。 - **微批处理方法**: 为了解决流处理系统中同时保持低延迟、高吞吐量和良好容错性的难题，提出了将流数据切分为一系列微小批量作业的方法。这种方法通过Spark Streaming得以实现，可以实现确切一次的语义，确保状态一致性。然而，这种做法仍然存在灵活性不足的问题，且对于延迟敏感的应用可能需要额外的工作来优化性能。 ##### 1.2 Spark Streaming与Storm Trident - **Spark Streaming**: 使用微批处理方法，在Spark批处理引擎上运行，能够实现确切一次的语义，但受限于批量作业的时间间隔，灵活性较低。 - **Storm Trident**: Storm的扩展，同样采用了微批处理方法，实现了确切一次的语义，但同样面临高延迟问题。 ##### 1.3 Flink的诞生 - **起源**: Flink起源于Stratosphere项目，该研究项目始于2010年，由柏林三所大学及其他欧洲高校合作开展。2014年4月，Stratosphere项目代码捐赠给Apache基金会，并在同年12月成为顶级项目。 - **理念**: “Apache Flink是一个用于分布式、高性能、高可用及准确的流处理应用的开源流处理框架。” - **特点**: 设计用于在各种集群环境中运行，提供内存级别的执行速度，支持无界和有界数据流的有状态计算。 - **Logo**: Flink的标志是一只红色的松鼠，象征着快速和灵巧，同时也呼应了Apache基金会的标志色彩。 #### 2. Flink核心计算框架 ##### 2.1 Flink Runtime执行引擎 - **架构**: Flink的核心是Flink Runtime执行引擎，一个分布式系统，能够接收数据流程序，并在一个或多个机器上以容错的方式执行。 - **部署**: 可以作为YARN的应用程序在集群上运行，也可在Mesos集群上运行，或在单机上运行以方便调试。 - **API**: 提供了DataStream API（面向流处理）和DataSet API（面向批处理），使得Flink既能处理流数据也能处理批数据。 ##### 2.2 API与库支持 - **DataStream API**: 用于流处理的数据集操作，支持实时数据处理。 - **DataSet API**: 用于批处理的数据集操作，适用于大规模数据处理任务。 - **拓展库**: - **FlinkML**: 支持机器学习应用。 - **CEP (Complex Event Processing)**: 支持复杂事件处理。 - **Gelly**: 图计算支持。 - **Table API**: 支持SQL-like查询语言进行流和批处理。 #### 3. Flink的关键特性 - **统一处理模型**: Flink提供了统一的处理模型，允许开发者使用相同的API处理流数据和批数据，简化了应用开发过程。 - **状态管理**: Flink内置的状态管理机制确保了数据处理的准确性，支持精确一次的处理语义。 - **高性能**: 利用内存计算的优势，Flink能够在大规模数据处理中保持高性能。 - **易用性**: 丰富的API和库支持降低了学习曲线，提高了开发效率。 - **可扩展性**: Flink的设计考虑到了未来的大规模扩展需求，支持多种集群环境。 - **容错能力**: 强大的容错机制保证了即使在故障发生时也能恢复到一致的状态。 Flink作为一种先进的流处理框架，不仅解决了传统流处理系统中存在的问题，还提供了一系列高级特性，使得开发者能够更轻松地构建高性能、可扩展的实时数据分析应用。

资源推荐

资源详情

资源评论

大数据课程之 Flink

第一章概述

1.1 流处理技术的演变

在开源世界里，Apache Storm 项目是流处理的先锋。Storm 最早由 Nathan Marz 和创

业公司 BackType 的一个团队开发，后来才被 Apache 基金会接纳。Storm 提供了低延迟的

流处理，但是它为实时性付出了一些代价：很难实现高吞吐，并且其正确性没能达到通常

所需的水平，换句话说，它并不能保证 exactly-once，即便是它能够保证的正确性级别，

其开销也相当大。

在低延迟和高吞吐的流处理系统中维持良好的容错性是非常困难的，但是为了得到有

保障的准确状态，人们想到了一种替代方法：将连续时间中的流数据分割成一系列微小的

批量作业。如果分割得足够小（即所谓的微批处理作业），计算就几乎可以实现真正的流

处理。因为存在延迟，所以不可能做到完全实时，但是每个简单的应用程序都可以实现仅

有几秒甚至几亚秒的延迟。这就是在 Spark 批处理引擎上运行的 Spark Streaming 所使用的

方法。

更重要的是，使用微批处理方法，可以实现 exactly-once 语义，从而保障状态的一致

性。如果一个微批处理失败了，它可以重新运行，这比连续的流处理方法更容易。Storm

Trident 是对 Storm 的延伸，它的底层流处理引擎就是基于微批处理方法来进行计算的，

从而实现了 exactly-once 语义，但是在延迟性方面付出了很大的代价。

对于 Storm Trident 以及 Spark Streaming 等微批处理策略，只能根据批量作业时间的

倍数进行分割，无法根据实际情况分割事件数据，并且，对于一些对延迟比较敏感的作业，

往往需要开发者在写业务代码时花费大量精力来提升性能。这些灵活性和表现力方面的缺

陷，使得这些微批处理策略开发速度变慢，运维成本变高。

于是，Flink 出现了，这一技术框架可以避免上述弊端，并且拥有所需的诸多功能，

还能按照连续事件高效地处理数据，Flink 的部分特性如下图所示：

1.3 Flink 核心计算框架

Flink 的核心计算架构是下图中的 Flink Runtime 执行引擎，它是一个分布式系统，能够

接受数据流程序并在一台或多台机器上以容错方式执行。

Flink Runtime 执行引擎可以作为 YARN（Yet Another Resource Negotiator）的应用程序

在集群上运行，也可以在 Mesos 集群上运行，还可以在单机上运行（这对于调试 Flink 应

用程序来说非常有用）。

图 Flink 计算架构

上图为 Flink 技术栈的核心组成部分，值得一提的是，Flink 分别提供了面向流式处理

的接口（ DataStream API）和面向批处理的接口（ DataSet API）。因此，Flink 既可以完

成流处理，也可以完成批处理。 Flink 支持的拓展库涉及机器学习

（FlinkML）、复杂事件处理（ CEP）、以及图计算（ Gelly），还有分别针对流处理和批

处理的 Table API。

能被 Flink Runtime 执行引擎接受的程序很强大，但是这样的程序有着冗长的代码，编

写起来也很费力，基于这个原因，Flink 提供了封装在 Runtime 执行引擎之上的 API ，以帮

助用户方便地生成流式计算程序。 Flink 提供了用于流处理的

DataStream API 和用于批处理的 DataSet API。值得注意的是，尽管 Flink Runtime

执行引擎是基于流处理的，但是 DataSet API 先于 DataStream API 被开发出来，这是因为

工业界对无限流处理的需求在 Flink 诞生之初并不大。

DataStream API 可以流畅地分析无限数据流，并且可以用 Java 或者 Scala 来实现。开

发人员需要基于一个叫 DataStream 的数据结构来开发，这个数据结构用于表

示永不停止的分布式数据流。

Flink 的分布式特点体现在它能够在成百上千台机器上运行，它将大型的计算任务分

成许多小的部分，每个机器执行一部分。Flink 能够自动地确保发生机器故障或者其他错

误时计算能够持续进行，或者在修复 bug 或进行版本升级后有计划地再执行一次。这种能

力使得开发人员不需要担心运行失败。Flink 本质上使用容错性数据流，这使得开发人员可

以分析持续生成且永远不结束的数据（即流处理）。

图无界数据流与有界数据流

在无界数据流和有界数据流中我们提到了批处理和流处理，这是大数据处理系统中常

见的两种数据处理方式。

批处理的特点是有界、持久、大量，批处理非常适合需要访问全套记录才能完成的计

算工作，一般用于离线统计。流处理的特点是无界、实时，流处理方式无需针对整个数据

集执行操作，而是对通过系统传输的每个数据项执行操作，一般用于实时统计。

在 Spark 生态体系中，对于批处理和流处理采用了不同的技术框架，批处理由

SparkSQL 实现，流处理由 Spark Streaming 实现，这也是大部分框架采用的策略，使用独

立的处理器实现批处理和流处理，而 Flink 可以同时实现批处理和流处理。

Flink 是如何同时实现批处理与流处理的呢？答案是，Flink 将批处理（即处理有限的

静态数据）视作一种特殊的流处理。

Apache Flink 是一个面向分布式数据流处理和批量数据处理的开源计算平台，它能够

基于同一个 Flink 运行时 (Flink Runtime)，提供支持流处理和批处理两种类

型应用的功能。现有的开源计算方案，会把流处理和批处理作为两种不同的应用类

型，因为它们要实现的目标是完全不相同的：流处理一般需要支持低延迟、

Exactly-once 保证，而批处理需要支持高吞吐、高效处理，所以在实现的时候通常是分别

给出两套实现方法，或者通过一个独立的开源框架来实现其中每一种处理方案。例如，实

现批处理的开源方案有 MapReduce、Tez、Crunch、Spark，实现流处理的开源方案有

Samza、Storm。

Flink 在实现流处理和批处理时，与传统的一些方案完全不同，它从另一个视角看待

流处理和批处理，将二者统一起来：Flink 是完全支持流处理，也就是说作为流

处理看待时输入数据流是无界的；批处理被作为一种特殊的流处理，只是它的输入数据流

被定义为有界的。基于同一个 Flink 运行时(Flink Runtime)，分别提供了流处理和批处理

API，而这两种 API 也是实现上层面向流处理、批处理类型应用框架的基础。

2.2 数据流编程模型

Flink 提供了不同级别的抽象，以开发流或批处理作业，如下图所示：

剩余35页未读，继续阅读

评论收藏

内容反馈

aixuedeyuoO

粉丝: 2
资源: 1

大数据技术之Flink.docx

剑指大数据——Flink学习精要（Java版)最终修订版

大数据之Flink.docx

大数据之flink教程.doc

大数据之Flink，为你打通flink之路.doc

【尚硅谷】大数据之flink教程.docx

《剑指大数据——Flink学习精要（Java版）》（最终修订版）.pdf

剑指大数据——Flink学习精要_java版

史上最全最详细的flink 中文教程(一千多页pdf).pdf

基于 Flink 的滴滴实时数仓实践.pdf

flink学习资料（包含网盘视频地址）

大数据技术之Flink教程

大数据工程师 Flink技术与实战 源码笔记下载

T112019-数据智能技术峰会-Flink在数据分析中的应用-2019.11.25-24页.pdf

T112019-数据智能技术峰会-Flink在数据分析中的应用-2019.11.25-24页.rar

大数据技术之Flink(Java版).doc

s硅谷大数据项目之Flink实时数仓完整版

尚硅谷大数据之flink教程1

气象大数据技术架构思路.docx

大数据应用解决方案.docx

大数据之flink教程-带目录.doc

大数据框架flink项目笔记

大数据之flink教程-TableAPI和SQL.docx

xq大数据学习技术文档.docx

大数据技术之高频面试题.docx

剑指大数据——Flink学习精要（Java版）

maven-cruisecontrol-plugin-1.1.jar

爪哇复习资料

Flink Hologres云原生实时数仓最佳实践.pdf

Big-Data_hadoop_Yelp_Data_Analysis

最新资源

大数据工程师 Flink技术与实战源码笔记下载