第一部分 Hadoop 分布式的编程框架
第一章 Hadoop 简介
1、philosophy: move-code-to-data,适合数据密集性应用。
2、SQL database VS Hadoop:
1) SCALE-OUT INSTEAD VS SCALE-UP
2) Key/value对 VS 关系表:无结构、半结构数据 VS 结构化的数据
3)函数式编程(MapReduce) VS 声明式编程(SQL):hive can map the sql to the job
4)离线批处理 VS 在线事务处理
3、理解MapReduce
1)2个阶段:
map:转换+过滤数据: <k1, v1> -> list(<k2, v2>)
reduce:<k2, list(v2)> -> list(<k3, v3>)
map和reduce之间按照key进行group,hadoop负责处理、只需要写map和reduce程序
2)word count 例子