使用Storm实现实时大数据分析.doc资源-CSDN文库

版权申诉

188 浏览量 2022-07-12 20:23:20 上传评论收藏 200KB DOC 举报

【使用Storm实现实时大数据分析】在大数据领域，实时处理能力变得越来越重要，尤其是在面对TB级别数据时。Apache Storm作为一种开源的实时计算框架，由Twitter开发，为解决大规模实时数据分析提供了有效工具。与Hadoop的批处理不同，Storm提供了一个分布式、高容错的计算系统，确保所有数据得到实时处理，而不仅仅是批量处理的一部分。 Storm的核心概念包括以下几个部分： 1. **拓扑（Topology）**：拓扑是Storm中的核心结构，由Spouts和Bolts组成，它们通过Stream Groupings相互连接。拓扑定义了数据流的处理逻辑，可以用于构建各种实时分析应用，如本文中的“超速报警系统”。 2. **Spout**：Spout是数据的来源，负责从外部源拉取数据并注入到拓扑中。Spout有两种类型：可靠和不可靠。可靠Spout会在数据传输失败时重试，确保数据不丢失；而不可靠Spout仅发送一次数据，不处理接收确认。 3. **Bolt**：Bolt是拓扑中的处理单元，执行各种操作，如数据过滤、聚合、存储等。Bolt可以从Spout接收数据，处理后可以发送给其他Bolt或直接输出。execute()方法是Bolt的主要接口，处理接收到的tuple。 4. **Stream Groupings**：Stream Groupings决定了Bolt如何接收来自Spout或其他Bolt的数据流。有六种基本的分组方式，例如随机分组（Shuffle Grouping）、字段分组（Field Grouping）等，用于控制数据在Bolt实例间的分布策略。 5. **Nimbus和Supervisor**：Nimbus是Storm集群的主节点，类似Hadoop的Job Tracker，负责分配任务和监控故障。Supervisor是工作节点，执行Nimbus分配的任务，每个工作节点可以运行拓扑的一部分。 6. **Zookeeper**：Zookeeper在Storm中扮演协调者的角色，确保Nimbus和Supervisor之间的通信以及任务分配的正确性。安装和配置Storm相对简单，需要下载安装文件，将bin目录添加到PATH环境变量，并确保storm脚本可执行。一旦设置完毕，就可以开始构建和部署拓扑。在“超速报警系统”示例中，实时分析过往车辆速度，一旦超过预设阈值，系统触发警报并将数据存入数据库。这个场景展示了Storm实时处理的能力，无需等待批处理周期结束，能够快速响应并采取行动。总结来说，Apache Storm提供了一种灵活、高效且容错的实时大数据处理平台，尤其适合需要实时响应的业务场景。通过Spout获取数据，Bolt进行处理，Stream Groupings定制数据流向，配合Nimbus和Supervisor的集群管理，以及Zookeeper的协调，Storm能够实现复杂实时分析任务的高效执行。在应对现代大数据挑战时，Storm是一个强大的工具。

资源推荐

资源详情

资源评论

1 / 17

使用 Storm 实现实时大数据分析

当今世界，公司的日常运营经常会生成 TB 级别的数据。数据来源囊括了互联网装置可以捕

获的任何类型数据，网站、社交媒体、交易型商业数据以及其它商业环境中创建的数据。考

虑到数据的生成量，实时处理成为了许多机构需要面对的首要挑战。我们经常用的一个非常

有效的开源实时计算工具就是 Storm —— Twitter 开发，通常被比作“实时的 Hadoop”。然

而 Storm 远比 Hadoop 来的简单，因为用它处理大数据不会带来新老技术的交替。

Shruthi Kumar、Siddharth Patankar 共同效力于 Infosys，分别从事技术分析和研发工作。本

文详述了 Storm 的使用方法，例子中的项目名称为 “ 超速报警系统（ Speeding Alert

System）”。我们想实现的功能是：实时分析过往车辆的数据，一旦车辆数据超过预设的临界

值 —— 便触发一个 trigger 并把相关的数据存入数据库。

Storm

对比 Hadoop 的批处理，Storm 是个实时的、分布式以及具备高容错的计算系统。同 Hadoop

一样 Storm 也可以处理大批量的数据，然而 Storm 在保证高可靠性的前提下还可以让处理进

行的更加实时；也就是说，所有的信息都会被处理。Storm 同样还具备容错和分布计算这些

特性，这就让 Storm 可以扩展到不同的机器上进行大批量的数据处理。他同样还有以下的这

些特性：

易于扩展。对于扩展，你只需要添加机器和改变对应的 topology（拓扑）设置。Storm 使用

Hadoop Zookeeper 进行集群协调，这样可以充分的保证大型集群的良好运行。

每条信息的处理都可以得到保证。

Storm 集群管理简易。

Storm 的容错机能：一旦 topology 递交，Storm 会一直运行它直到 topology 被废除或者被关

闭。而在执行中出现错误时，也会由 Storm 重新分配任务。

尽管通常使用 Java，Storm 中的 topology 可以用任何语言设计。

当然为了更好的理解文章，你首先需要安装和设置 Storm。需要通过以下几个简单的步骤：

从 Storm 官方下载 Storm 安装文件

将 bin/directory 解压到你的 PATH 上，并保证 bin/storm 脚本是可执行的。

Storm 组件

Storm 集群主要由一个主节点和一群工作节点（worker node）组成，通过 Zookeeper 进行协

调。

主节点：

主节点通常运行一个后台程序 —— Nimbus，用于响应分布在集群中的节点，分配任务和监

测故障。这个很类似于 Hadoop 中的 Job Tracker。

工作节点：

2 / 17

工作节点同样会运行一个后台程序 —— Supervisor，用于收听工作指派并基于要求运行工

作进程。每个工作节点都是 topology 中一个子集的实现。而 Nimbus 和 Supervisor 之间的协

调则通过 Zookeeper 系统或者集群。

Zookeeper

Zookeeper 是完成 Supervisor 和 Nimbus 之间协调的服务。而应用程序实现实时的逻辑则被封

装进 Storm 中的“topology”。topology 则是一组由 Spouts（数据源）和 Bolts（数据操作）

通过 Stream Groupings 进行连接的图。下面对出现的术语进行更深刻的解析。

Spout：

简而言之，Spout 从来源处读取数据并放入 topology。Spout 分成可靠和不可靠两种；当 Storm

接收失败时，可靠的 Spout 会对 tuple（元组，数据项组成的列表）进行重发；而不可靠的

Spout 不会考虑接收成功及否只发射一次。而 Spout 中最主要的方法就是 nextTuple（），该

方法会发射一个新的 tuple 到 topology，如果没有新 tuple 发射则会简单的返回。

Bolt：

Topology 中所有的处理都由 Bolt 完成。Bolt 可以完成任何事，比如：连接的过滤、聚合、

访问文件/数据库、等等。Bolt 从 Spout 中接收数据并进行处理，如果遇到复杂流的处理也

可能将 tuple 发送给另一个 Bolt 进行处理。而 Bolt 中最重要的方法是 execute（），以新的

tuple 作为参数接收。不管是 Spout 还是 Bolt，如果将 tuple 发射成多个流，这些流都可以通

过 declareStream（）来声明。

Stream Groupings：

Stream Grouping 定义了一个流在 Bolt 任务间该如何被切分。这里有 Storm 提供的 6 个

Stream Grouping 类型：

1. 随机分组（Shuffle grouping）：随机分发 tuple 到 Bolt 的任务，保证每个任务获得相等数

量的 tuple。

2. 字段分组（Fields grouping）：根据指定字段分割数据流，并分组。例如，根据“user-id”

字段，相同“user-id”的元组总是分发到同一个任务，不同“user-id”的元组可能分发到不

同的任务。

3. 全部分组（All grouping）：tuple 被复制到 bolt 的所有任务。这种类型需要谨慎使用。

4. 全局分组（Global grouping）：全部流都分配到 bolt 的同一个任务。明确地说，是分配给 ID

最小的那个 task。

5. 无分组（None grouping）：你不需要关心流是如何分组。目前，无分组等效于随机分组。

但最终，Storm 将把无分组的 Bolts 放到 Bolts 或 Spouts 订阅它们的同一线程去执行（如果

剩余16页未读，继续阅读

评论收藏

内容反馈

版权申诉

kfcel5889

粉丝: 3
资源: 5万+

使用Storm实现实时大数据分析.doc

基于Storm的实时大数据处理.docx

基于Storm的实时大数据处理.pdf

实时大数据分析基于Storm、Spark技术的实时应用.zip

使用Storm实现实时大数据分析！

基于Storm技术的实时数据处理平台研究与实现.pdf

基于Storm的实时报警服务的设计与实现.pdf

分布式实时日志密度数据流聚类算法及其基于Storm的实现.pdf

大数据技术之Storm.doc

实时Hadoop实战篇：基于Storm实时路况分析和实时路径推荐系统方案.doc

storm组件安装部署.doc

一种大数据智能分析平台的数据分析方法及实现技术.doc

大数据开发工程师简历模板.doc

SD_Storm_CEP:使用Storm和Espertech进行分布式实时数据分析，以识别交通侵权后可能发生的车辆事故

udacity-storm:使用 Apache Storm 课程的 Udacity 实时分析代码

Storm流计算项目：1号店电商实时数据分析系统-11.基于HBase的Dao基类和实现类开发一.pptx

Real-Time_Analytics_with_Apache_Storm__Udacity_Course:Udacity-Twitter课程“使用Apache Storm进行实时分析”的课程和作业的源代码-apache source code

数据仓库建设方案.doc

数据仓库建设设计方案.doc

大数据入门资源.doc

2020年hadoop简历模板.doc

大数据科普：大数据后台层次角色及数据流向.doc

Storm流计算项目：1号店电商实时数据分析系统-12.基于HBase的Dao基类和实现类开发二.pptx

基于Storm本地集群搭建实时统计CallLog实现可运行

Storm+Durid+Hadoop实现在线实时分析和离线批处理分析源码

Storm流计算项目：1号店电商实时数据分析系统-18.项目1-地区销售额-HTTP长链接实现实时推送.pptx

trident-lambda-splout:一个使用Storm的Trident作为实时层和Splout SQL作为批处理层的“ Lambda体系结构”的玩具示例

大数据技术与应用基础-教学大纲.doc

基于Flume的海量日志统一分析平台--计算机信息管理自学考试毕业论文.doc

最新资源