Hadoop 从业者为什么需要 Spark?答案是 Hadoop 已死,Spark 称霸。
而 Hadoop 的死亡过程在 2012 年已经开始:
1,由于 Hadoop 自身架构的导致了在离线数据存储分析意外的一切领域都力不从心,
理论已经证明 MapReduce 模型可以模拟一切分布式计算,但是效率成为其死穴,而
Spark 基于 RDD 的计算图可以轻松、完整地表达 MapReduce 模型,并且能极为容易的
处理实时流计算、机器学习、图计算、误差查询等;
2,2012 年以来 Hadoop 本身架构臃肿并未得到本质性的改善,很多修改升级也就只
是补丁式的修修补补,现在 Hadoop 这个云计算大数据前期做出卓越贡献的平台正在继续
的死亡;
4,原先支持 Hadoop 的四大商业机构纷纷宣布支持 Spark;
5,Mahout 前一阶段表示从现在起他们将不再接受任何形式的以 MapReduce 形式
实现的算法,另外一方面,Mahout 宣布新的算法基于 Spark;
6,Cloudera 的机器学习框架 Oryx 的执行引擎也将由 Hadoop 的 MapReduce 替
换成 Spark;
Spark 是继 Hadoop 之后,成为替代 Hadoop 的下一代云计算大数据核心技术,目前
SPARK 已经构建了自己的整个大数据处理生态系统,如流处理、图技术、机器学习 、
NoSQL 查询等方面都有自己的技术,并且是 Apache 顶级 Project,可以预计的是 2014 年下
半年到 2015 年在社区和商业应用上会有爆发式的增长。
国外一些大型互联网公司已经部署了 Spark。甚至连 Hadoop 的早期主要贡献者 Yahoo
现在也在多个项目中部署使用 Spark;国内的淘宝、优酷土豆、网易、Baidu、腾讯等已经
使用 Spark 技术用于自己的商业生产系统中,国内外的应用开始越来越广泛。Spark 正在逐
渐走向成熟,并在这个领域扮演更加重要的角色。
现在很多原来使用深度使用 Hadoop 的公司都在纷纷转向 Spark,国内的淘宝是典型的
案例,我们在这里就不做介绍。在此,我们以使用世界上使用 Hadoop 最典型的公司
Yahoo!为例,大家可以看一下其数据处理的架构图:
评论0
最新资源