HADOOP个人简历.docx资源-CSDN文库

版权申诉

27 浏览量 2022-10-30 23:01:38 上传评论收藏 21KB DOCX 举报

资源详情

资源评论

个人简历

联系电话

篇二：hadoop个人笔记

电子邮箱

一．大数据处理{集中式计算、分布式计算} 不断增加处理器的数量里增加单个计算机计

算能力，提高处理能力。个人英雄主义计算机通过网络相互连接组成分散系统，然手将需要

处理大量数据分散多个部分，交有分散系统内计算机组同时处理，最后将计算结果合并最终

结果。团队合作

二．hadoop

1、hadoop是什么？

面向大数据处理

擅长离线数据分析

hadoop不是数据库（分布式文件系统+计算框架），hbase 才是数据库 hadoop 是一个快

速化的生态系统

2、hdfs 的架构

提供分布式存储机制，提供可线性增长的海量存储能力。

自动数据冗余、无需 raid,无需另行备份。

为进一步分析计算提供数据基础。

? hdfs体系结构中有两类节点:

namenode 元数据节点（只有一个）

datanode 数据节点（有很多个）。主从节点

? namenode

hdfs 的守护程序

接受用户操作请求

维护文件系统的目录结构

管理文件与 block之间的关系，block与 datanode之间的关系

【namenode 比作班主任】

记录文件是如何分割成数据块的，以及这些数据块被存储到那些节点上。

对内存和 i/o进行集中管理

是个单点，发生故障将使集群崩溃

secondry namenode

定期保存 hdfs元数据快照（合并后 fsimage）

遗憾：不能自动却换。实现故障人工处理，事实上的单点。

? datanode（只做一件事存储数据）

存储文件

文件被分成 block存储在磁盘上（便于管理）

为保证数据安全，文件会有多个副本（安全）

3、mapreduce架构

? jobtracker负责：

接受客户提交的计算任务

把计算任务分给 tasktracker执行

监控 task tracker的执行情况

? task trackers负责：

执行 jobtracker分配的任务

4、hadoop的特点

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余4页未读，立即下载

内容反馈

版权申诉

评论0

最新资源

不吃鸳鸯锅

粉丝: 8296
资源: 2万+

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip