flink入门文档.docx资源-CSDN文库

实时大数据

需积分: 9 62 浏览量 2022-08-16 16:20:57 上传评论收藏 614KB DOCX 举报

资源详情

资源评论

资源推荐

1.入门概念

1.1 核心特点

按照老中少三代来区分大数据框架，老一代为处理流式数据的 storm，中一带为处理批式

数据的 hadoop、spark（微批为流），少一代为本文章描述的 flink，自从阿里接管 flink 的

开源后，今天的 flink 已经已经十分强大，兼有批流一体、高容错、高吞吐低延迟、大规模

计算、多平台部署等核心特点

Flink：实时流处理，支持低延迟、高吞吐、exactly-once 语义、有状态的计算、基于事件时

间的处理

1.1.1 批流数据

传统的大数据理解中，数据源源不断的产生，没有终止，同时也积累的许多。针对

以上，源源不断的来的即为流式数据（无界数据），积累的一批为批式数据（有界数据）。

批数据除了是已经产生的数据，还可以由流式数据作一定规则的细分截取产生。具体的的应

用应视情况而定，可以针对流式数据作聚合操作，也可以等攒齐了一次性操作。Flink 同

时支持对流式数据操作和批示数据操作，且强于以上框架。

1.1.2 容错能力

Flink 容错能力主要有三种：依赖于集群管理、依赖于协调组件、依赖于自身快照

机制

一：集群管理

Flink 支持多平台部署，其中 k8s 之类的容器集群管理平台本身自带当进程挂掉时，

重启新进程接管工作的功能。

二：协调组件

Flink 可通过相应配置开启 HA 模式，依赖于 Zookeeper 的分布式协调服务。

三：快照机制

Flink 通过设计检查点和状态存储，来保证重启后可接着上次断点后继续工作。

1.1.3 高吞吐低延迟

Flink 除了在计算、传输、序列化做了优化外，得益于本身的快照机制，不依赖会

产生阻塞的调度，从而可以持续处理数据

1.1.4 大规模复杂计算

计算方面也得益于 flink 本身的容错机制和状态存储设置，可以使 flink 已聚合的方

式逐批处理数据，并聚合保存之前和现有的状态于本地内存中（数据是否共享有待研究，

个人觉得是共享的），如此一来可以极大的降低大数据的调度】管理等

（10）JoinedStreams&& CoGroupedStreams:join 是 COGroup 的一种特例，JoinedStreams 底层

使用的 COGroupStreams 来实现。CoGroup 侧重于 Group，对数据进行分组，是对同一个 key

上的两组集合进行操作，而 join 侧重的是数据对，对同一个 key 上的每一对元素进行操作。

CoGroup 更通用，单 join 比较常见。

（11）ConnectedStreams:其表示两个数据流的组合，数据流类型可以不一样。整合后的数据

流共享 state。一种典型的场景就是两个流中一种是业务流，一种是规则流，业务流根据规

则流来对数据进行处理。

（12）AsyncDataStream:是一个工具，提供在 DataStream 上使用异步函数的能力

（13）DataStreamSink:由 DataStream。addSink(SinkFunction)创建而来，其中 SinkFunction 定

义了写出数据到外部存储的具体逻辑。

2.2 Environment

2.2.1 getExecutionEnvironment

创建一个执行环境，表示当前执行程序的上下文。如果程序是独立调用的，则此方法返回

本地执行环境；如果从命令行客户端调用程序以提交到集群，则此方法返回此集群的执行环

境，也就是说，getExecutionEnvironment 会根据查询运行的方式决定返回什么样的运行环境，

是最常用的一种创建执行环境的方式。

如果没有设置并行度，会以 flink-conf.yaml 中的配置为准，默认是 1

2.3 数据读取（Source）

这是 flink 流计算的起点，第一个 DataStream 由此产生，主要有四种方式：内存读取、文

件读取、socket 读取、自定义

2.3.1 基于本地集合的 source

在一个本地内存中，生成一个集合作为 Flink 处理的 source。

离线处理代码如下：

实时处理代码如下：

// 初始化环境

val env: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment

val env = StreamExecutionEnvironment.getExecutionEnvironment

import org.apache.flink.api.scala.ExecutionEnvironment

import org.apache.flink.api.scala._

object ListSource {

def main(args: Array[String]): Unit = {

val env = ExecutionEnvironment.getExecutionEnvironment

val listDataSet: DataSet[String] = env.fromCollection(List("hadoop spark","hive

hbase"))

listDataSet.print()

}

}

剩余30页未读，继续阅读

评论0

内容反馈

小东子李

粉丝: 48
资源: 7

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip