没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论

















NiFi 文档
1. 初识 NiFi
1.1. 概述
最早是美国国家安全局内部使用的工具用来投递海量的传感器数据后来由 基金会开
源。 基本设计理念:,
1.2. 核心概念
表示在系统中移动的每个对象, 由两部分组成
o 内容,即数据本身
o 属性,每条数据带上的属性信息以键值对的形式
o 处理器由它完成对数据的实际处理工作包括但不限于对数据内容和属性的加载路
由转换输出等
o 处理器最灵活之处在于处理器可以读写 的属性信息并且用自带的领域特定语言
对属性进行编程
!
o 由 ! 把各个处理器链接起来从而形成数据处理流程的有向无环图"# 图 也称
数据流中的
o !同时充当处理器间的队列并且队列的属性高度可配置
o 这些队列可以配置优先级,可以在设置阈值,可以实现反压。

!
o 流控制器对用户不可见的它充当维护处理器如何连接和管理所有处理器所使用的线程及其分
配的重要角色。
o ! 充当促进处理器之间 交换的代理。
#
o 为了方便管理把一组特定的处理器及其连接组成的 放到一个处理组中去,可以通过输
入端口接收数据并通过输出端口发送数据。
o 以这种方式,处理组可以通过组合其他组来创建全新组形成更加复杂的 "# 图流 。
1.3. 关键特性
Flow 流高度可管理
保证交付
的一个核心理念是即使在非常高的规模下,保证交付也是必须的。这是通过有效使用专门的
持久化的预写日志$" 和内容存储库来实现的。它们的设计可以实现非常高的事务处理速率,
有效的负载分散,写入时复制以及发挥传统磁盘读%写的优势。
背压和数据缓冲机制
支持缓冲所有队列数据,以及在这些队列达到指定限制时提供背压的能力,或者在数据达到
指定时间时使数据过期失效。
可配置优先级的队列
允许设置一个或多个优先级策略,用于如何从队列中检索数据。默认是先进先出,但有时候
应该先拉取最新的数据,最大的数据或其他一些自定义方案。
流可配置特定的 &(延迟 ' 吞吐量,容量损失等)
在 流中有一些点是很关键的且不能容忍丢失或者有时候必须在几秒钟内处理和交付它。
可以对这些问题进行细粒度的特定配置。
易于使用
可视化的控制和命令
得益于强大的 操作界面无论多么复杂的数据流都能在 界面上直观的呈现整个数据处
理流程包括设计控制反馈和监控都可在 界面完成一步到位任何更改都能在界面上立马生
效完全不要部署的过程对于整个数据流更可以对中间某个处理器进行单独变更实时生效
数据流模板
对于设计好的数据流处理流可以保存为模板来进行复用模板可以导出成 ( 文件导入到其他
中进行多处使用

数据溯源
)*流过 流时, 会自动记录,索引并提供可用的起源数据,包括导入,导出,转
换等。这些信息对于故障排除,优化等很有用处
对历史数据进行细粒度的恢复
的内容存储库旨在充当历史记录的滚动缓冲区。数据仅在内容存储库过期时或存储空间不足
时才会被删除。这与数据起源能力相结合,提供了非常精细的操作功能包括对数据历史中的某
一个点的点击查看内容下载内容处理回放等功能所有数据都可以回溯到它生命周期中很早的某
一点
安全机制
系统内部安全
流中的流动的数据都可以进行加密传输
用户使用安全
支持用户认证和不同级别的用户授权可读管理数据流系统管理
多租户授权
可扩展的架构设计
可扩展组件
的核心设计就是扩展它的 !'+,-
.!/01都是 可扩展的
隔离的类加载器
自定义的类加载器保证了扩展的组件简单的依赖关系
点到点的通信协议
实例之间的通信协议是 点到点(2)协议。2 可以轻松,高效,安全地将数据从
一个 实例传输到另一个实例。客户端 的 库也可以轻松在其他应用程序使用,以通过
2 来与 实例进行通信。2 中支持基于套接字的协议和 3,,()协议作为底层传输协
议,使得可以将代理服务器嵌入到 2 通信中。
灵活的扩容模型
更多的 实例
可以搭建 集群也可以不组成集群多台机器使用 点到点 协议来协作
更大的并发数量
直接修改处理器的并发数

1.4. 架构
Web Server
服务器的提供基于 的命令和控制 "0。
Flow Controller
流量控制器是操作的大脑。它为扩展程序提供运行所需的线程,并管理扩展程序何时接收执行资源
的时间表。
Processor
处理组件
Extensions
扩展组件
FlowFile Repository
通过 +4 可跟踪 中处于活动状态的 的状态。存储库的实现是插件
式的,默认是位于指定磁盘分区上的持久性预写日志。
Content Repository
!+4作为 的存储库,实现是插件式的,默认是一种相当简单的机制,该
机制将数据块存储在文件系统中。可以指定多个文件系统存储位置,以便使用不同的物理分区以减少任何
单个卷上的争用。
Provenance Repository

'+4 是存储所有来源事件数据的地方。存储库实现是插件式的,默认实现是使
用一个或多个物理磁盘卷。在每个位置内,事件数据都被索引并可以搜索。
集群
从 56 版本开始,采用了零主群集的范例。 群集中的每个节点都对数据执行相同的任务,
但是每个节点都对不同的数据集进行操作。通过 78 选择一个节点作为集群协调器,并且故障转
移由 78 自动处理。所有群集节点均向群集协调器报告心跳和状态信息。群集协调器负责断开和
连接节点。此外,每个群集都有一个主节点,该节点也由 78 选择。作为 管理者,您
可以通过任何节点的用户界面(/0)与 群集进行交互。您所做的任何更改都将复制到群集中的所有
节点,从而允许多个入口点。
剩余62页未读,继续阅读
资源评论


leetooy
- 粉丝: 0
- 资源: 15
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


安全验证
文档复制为VIP权益,开通VIP直接复制
