第六章 基于Hadoop的海量数据挖掘技术
大纲
一、Hadoop简介
二、聚类算法
三、分类算法
四、频繁模式挖掘
五、小结
2
3
一、Hadoop简介
p Hadoop—开源大数据分布式计算框架
p 模块组成:
p HDFS 分布式存储
p MapReduce 高效计算框架
p HDFS体系结构
4
一、Hadoop简介
p Hadoop—开源大数据分布式计算框架
p MapReduce处理过程
5
一、MapReduce运算举例
p 矩阵加法
p 应用场景:考虑很多不同路由器组成的网络系统,每个路由器会
转发非常多的IP包(src, dst, size)。转发源地址、目的地址分别用src
和dst表示,IP包大小为size。现求不同的IP地址对之间的数据转发
量。