Hadoop之mr分布式计算机框架
Hadoop核心组件–MR
Hadoop 分布式计算框架
1.MapReduce设计理念
何为分布式计算
移动计算,而不是移动数据
2.计算机框架MR
从HDFS存储的数据/文件作为输入(MR的数据来源)
对于这些数据首先要处理成一个个片段 split
每个片段都有个map线程去执行
reduce步骤
生成数据默认也保存在HDFS上
MR对很大的数据统计所有单词出现的次数的过程
分为四个步骤
splitting
mapping(java线程执行分析数据片段,并发的同时执行)(根据写的代码执行)(将split中的每个单词都取出来,单词的本身作为键,1作为值