一.大数据处理{集中式计算、分布式计算} 不断增加处理器的数量里增加单个计算机计
算能力,提高处理能力。个人英雄主义 计算机通过网络相互连接组成分散系统,然手将需要
处理大量数据分散多个部分,交有分散系统内计算机组同时处理,最后将计算结果合并最终
结果。团队合作
hadoop不是数据库(分布式文件系统+计算框架),hbase 才是数据库 hadoop 是一个快
速化的生态系统
提供分布式存储机制,提供可线性增长的海量存储能力。
自动数据冗余、无需 raid,无需另行备份。
为进一步分析计算提供数据基础。
? hdfs体系结构中有两类节点:
namenode 元数据节点(只有一个)
datanode 数据节点(有很多个)。主从节点
? namenode
管理文件与 block之间的关系,block与 datanode之间的关系
【namenode 比作班主任】
记录文件是如何分割成数据块的,以及这些数据块被存储到那些节点上。
对内存和 i/o进行集中管理
是个单点,发生故障将使集群崩溃
secondry namenode
定期保存 hdfs元数据快照(合并后 fsimage)
遗憾:不能自动却换。实现故障人工处理,事实上的单点。
? datanode(只做一件事 存储数据)
存储文件
文件被分成 block存储在磁盘上(便于管理)
为保证数据安全,文件会有多个副本(安全)
3、mapreduce架构
把计算任务分给 tasktracker执行
监控 task tracker的执行情况
评论0
最新资源