Spark介绍.docx
spark是专为大规模数据处理而设计的快速通用的计算引擎。它是在内存中计算,可以进行迭代计算(是指将计算结果代回原变量进行重复计算,直到满足特定数值条件为止)。mapreduce是基于硬盘计算,所以spark计算速度比mapreduce快好多,mapreduce不是流式计算。Spark针对持续性数据流的抽象称为DStream,一个DStream是一个微批处理的RDD
spark是专为大规模数据处理而设计的快速通用的计算引擎。它是在内存中计算,可以进行迭代计算(是指将计算结果代回原变量进行重复计算,直到满足特定数值条件为止)。mapreduce是基于硬盘计算,所以spark计算速度比mapreduce快好多,mapreduce不是流式计算。Spark针对持续性数据流的抽象称为DStream,一个DStream是一个微批处理的RDD
在HBase中,只有一个单一的按照字典序排序的rowKey索引,当使用rowKey来进行数据查询的时候速度较快,但是如果不使用rowKey来查询的话就会使用filter来对全表进行扫描,很大程度上降低了检索性能。而Phoenix提供了二级索引技术来应对这种使用rowKey之外的条件进行检索的场景。
主要介绍Hadoop,Spark,Sqoop,Hbase,kafka等大数据相关组件,以及Apache原生集群以及CDH一键安装方式,最后介绍作者所在公司的应用场景