Hadoop、Spark等5种大数据框架对比，你的项目该用哪种？资源-CSDN文库

97 浏览量 2021-01-29 21:25:28 上传评论收藏 158KB PDF 举报

资源推荐

资源详情

资源评论

Hadoop、、Spark等等5种大数据框架对比，你的项目该用哪种？种大数据框架对比，你的项目该用哪种？

简介

大数据是收集、整理、处理大容量数据集，并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或

存储容量早已超过一台计算机的上限，但这种计算类型的普遍性、规模，以及价值在最近几年才经历了大规模扩展。

本文将介绍大数据系统一个最基本的组件：处理框架。处理框架负责对系统中的数据进行计算，例如处理从非易失存储中读取

的数据，或处理刚刚摄入到系统中的数据。数据的计算则是指从大量单一数据点中提取信息和见解的过程。

下文将介绍这些框架：

仅批处理框架：

Apache Hadoop

仅流处理框架：

Apache Storm

Apache Samza

混合框架：

Apache Spark

Apache Flink

大数据处理框架是什么？

处理框架和处理引擎负责对数据系统中的数据进行计算。虽然“引擎”和“框架”之间的区别没有什么权威的定义，但大部分时候

可以将前者定义为实际负责处理数据操作的组件，后者则可定义为承担类似作用的一系列组件。

例如Apache Hadoop可以看作一种以MapReduce作为默认处理引擎的处理框架。引擎和框架通常可以相互替换或同时使用。

例如另一个框架Apache Spark可以纳入Hadoop并取代MapReduce。组件之间的这种互操作性是大数据系统灵活性如此之高

的原因之一。

虽然负责处理生命周期内这一阶段数据的系统通常都很复杂，但从广义层面来看它们的目标是非常一致的：通过对数据执行操

作提高理解能力，揭示出数据蕴含的模式，并针对复杂互动获得见解。

为了简化这些组件的讨论，我们会通过不同处理框架的设计意图，按照所处理的数据状态对其进行分类。一些系统可以用批处

理方式处理数据，一些系统可以用流方式处理连续不断流入系统的数据。此外还有一些系统可以同时处理这两类数据。

在深入介绍不同实现的指标和结论之前，首先需要对不同处理类型的概念进行一个简单的介绍。

批处理系统

批处理在大数据世界有着悠久的历史。批处理主要操作大容量静态数据集，并在计算过程完成后返回结果。

批处理模式中使用的数据集通常符合下列特征...

1、有界：批处理数据集代表数据的有限集合

2、持久：数据通常始终存储在某种类型的持久存储位置中

3、大量：批处理操作通常是处理极为海量数据集的唯一方法

批处理非常适合需要访问全套记录才能完成的计算工作。例如在计算总数和平均数时，必须将数据集作为一个整体加以处理，

而不能将其视作多条记录的集合。这些操作要求在计算进行过程中数据维持自己的状态。

需要处理大量数据的任务通常最适合用批处理操作进行处理。无论直接从持久存储设备处理数据集，或首先将数据集载入内

存，批处理系统在设计过程中就充分考虑了数据的量，可提供充足的处理资源。由于批处理在应对大量持久数据方面的表现极

为出色，因此经常被用于对历史数据进行分析。

大量数据的处理需要付出大量时间，因此批处理不适合对处理时间要求较高的场合。

Apache Hadoop

Apache Hadoop是一种专用于批处理的处理框架。Hadoop是首个在开源社区获得极大关注的大数据框架。基于谷歌有关海量

数据处理所发表的多篇论文与经验的Hadoop重新实现了相关算法和组件堆栈，让大规模批处理技术变得更易用。

新版Hadoop包含多个组件，即多个层，通过配合使用可处理批数据：

HDFS：HDFS是一种分布式文件系统层，可对集群节点间的存储和复制进行协调。HDFS确保了无法避免的节点故障发生后

数据依然可用，可将其用作数据来源，可用于存储中间态的处理结果，并可存储计算的最终结果。

YARN：YARN是Yet Another Resource Negotiator（另一个资源管理器）的缩写，可充当Hadoop堆栈的集群协调组件。该组

件负责协调并管理底层资源和调度作业的运行。通过充当集群资源的接口，YARN使得用户能在Hadoop集群中使用比以往的

迭代方式运行更多类型的工作负载。

MapReduce：MapReduce是Hadoop的原生批处理引擎。

批处理模式

Hadoop的处理功能来自MapReduce引擎。MapReduce的处理技术符合使用键值对的map、shuffle、reduce算法要求。基本

处理过程包括：

从HDFS文件系统读取数据集

将数据集拆分成小块并分配给所有可用节点

针对每个节点上的数据子集进行计算（计算的中间态结果会重新写入HDFS）

重新分配中间态结果并按照键进行分组

通过对每个节点计算的结果进行汇总和组合对每个键的值进行“Reducing”

将计算而来的最终结果重新写入 HDFS

优势和局限

由于这种方法严重依赖持久存储，每个任务需要多次执行读取和写入操作，因此速度相对较慢。但另一方面由于磁盘空间通常

是服务器上最丰富的资源，这意味着MapReduce可以处理非常海量的数据集。同时也意味着相比其他类似技术，Hadoop的

MapReduce通常可以在廉价硬件上运行，因为该技术并不需要将一切都存储在内存中。MapReduce具备极高的缩放潜力，生

产环境中曾经出现过包含数万个节点的应用。

MapReduce的学习曲线较为陡峭，虽然Hadoop生态系统的其他周边技术可以大幅降低这一问题的影响，但通过Hadoop集群

快速实现某些应用时依然需要注意这个问题。

围绕Hadoop已经形成了辽阔的生态系统，Hadoop集群本身也经常被用作其他软件的组成部件。很多其他处理框架和引擎通过

与Hadoop集成也可以使用HDFS和YARN资源管理器。

总结

Apache Hadoop及其MapReduce处理引擎提供了一套久经考验的批处理模型，最适合处理对时间要求不高的非常大规模数据

集。通过非常低成本的组件即可搭建完整功能的Hadoop集群，使得这一廉价且高效的处理技术可以灵活应用在很多案例中。

与其他框架和引擎的兼容与集成能力使得Hadoop可以成为使用不同技术的多种工作负载处理平台的底层基础。

剩余6页未读，继续阅读

评论收藏

内容反馈

weixin_38571992

粉丝: 1
资源: 939

Hadoop、Spark等5种大数据框架对比，你的项目该用哪种？

大数据框架对比.docx

大数据框架对比：Hadoop、Storm、Samza、Spark和Flink

Hadoop与Spark 肖睿+PDF

Spark是什么？Spark和Hadoop的区别

java+大数据相关框架实战项目(Hadoop, Spark, Storm, Flink).zip

BigData-Getting-Started:大数据相关框架实战项目(Hadoop, Spark, Storm, Flink)

毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip

Python+Spark 2.0+Hadoop机器学习与大数据

基于Hadoop、Spark的大数据金融信贷风险控系统源码.zip

Hadoop Spark大数据巨量分析与机器学习整合开发实战 ,林大贵

hadoop-cos（CosN文件系统）为Apache Hadoop、Spark以及Tez等大数据计算框架集成提供支.zip

基于Hadoop分布式系统的地质环境大数据框架探讨.pdf

为Apache Hadoop、Spark以及Tez等大数据计算框架集成.zip

《Python+Spark2.0+Hadoop机器学习与大数据实战》练习.zip

大数据Hadoop框架核心技术对比与实现.pdf

数据算法:Hadoop+Spark大数据 中文版

大数据技术综合笔记-涵盖Hadoop、Spark、Storm等框架的核心知识点

基于Hadoop、Spark的大数据金融信贷风险控系统.zip

超越Hadoop的大数据技术

大数据Spark企业级实战

大数据学习指南合集（Hadoop、Spark、Flink等）

大数据hadoop，spark，hive等等面试汇总

Hadoop大数据云平台

Hadoop权威指南.大数据的存储与分析.第4版.修订版&升级版

hadoop spark大数据日志分析与可视化答辩PPT.pptx

电影推荐系统：基于spark、hadoop、kafka、MongoDB、angular等大数据框架实现实时+离线推荐

基于Hadoop和Spark的个性化推荐系统,电商大数据项目实战之推荐系统.zip

最新资源

数据算法:Hadoop+Spark大数据中文版