第一章
大数据技术概述
大数据的 5 个 V
•
Volume :数据量大
•
Velocity :数据产生速度快
•
Variety :数据类型繁多
•
Veracity :数据真实性
•
Value :数据价值
大数据
单台计算机无法处理所有数据,使用多台计算机组成集
群,进行分布式计算。
分而治之:
•
将原始问题分解为多个子问题
•
多个子问题分别在多台计算机上求解
•
将子结果汇总
比较经典的模式和框架:
•
MPI
•
MapReduce
大数据分而治之
MPI : Message Passing Interface 消息传递接口
使用分治法将问题分解成子问题,在不同节点上分而治之地求解。
MPI 提供数据发送和数据接收操作:
•
将本进程中某些数据发送给其他进程
•
接收其他进程的数据
自行设计分治算法,将复杂问题分解为子问题
优势:以很细的粒度控制数据的通信
劣势:难度大,开发调试时间成本高
MPI
程序员只需要定义两个操作: Map 和 Reduce
案例:三明治制作
Map 阶段将原材料在不同的节点上分别进行处理
Shue/Group 阶段将不同的中间食材进行组合
Reduce 阶段最终将一组中间食材组合成三明治成品
学习门槛比 MPI 低
MapReduce
- 1
- 2
- 3
- 4
前往页