一、数据分析平台层次解析
大数据分析处理架构图
数据源: 除该种方法之外,还可以分为离线数据、近似实时数据和实时数据。
按照图中的分类其实就是说明了数据存储的结构,而特别要说的是流数据,它
的核心就是数据的连续性和快速分析性;
计算层: 内存计算中的 Spark 是 UC Berkeley 的最新作品,思路是利用集群中
的所有内存将要处理的数据加载其中,省掉很多 I/O 开销和硬盘拖累,从而加
快计算。而 Impala 思想来源于 Google Dremel,充分利用分布式的集群和高效
存储方式来加快大数据集上的查询速度,这也就是我上面说到的近似实时查
询;底层的文件系统当然是 HDFS 独大,也就是 Hadoop 的底层存储,现在大数
据的技术除了微软系的意外,基本都是 HDFS 作为底层的存储技术。上层的
YARN 就是 MapReduce 的第二版,和在一起就是 Hadoop 最新版本。基于之上的
应用有 Hive,Pig Latin,这两个是利用了 SQL 的思想来查询 Hadoop 上的数
据。
关键: 利用大数据做决策支持。R 可以帮你在大数据上做统计分析,利用 R 语
言和框架可以实现很专业的统计分析功能,并且能利用图形的方式展现;而
Mahout 就是一个集数据挖掘、决策支持等算法于一身的工具,其中包含的都是
评论0
最新资源