【大数据(hadoop)竞赛练习题】相关知识点详解 1. Hadoop 由 Doug Cutting 创建,最初是为了支持 Apache Nutch 搜索引擎项目。Hadoop 的发展始于2003年,Nutch 的开发者们开始实现 Google 的 GFS 和 MapReduce 理论。 2. Hadoop 的起源可以追溯到2004年,当时Nutch 开发者开发了NDFS(Nutch 分布式文件系统)。而Hadoop 作为一个独立的开源项目是在2005年正式发布的。 3. 在 CentOS7 系统中,查看本机主机名的命令是 `hostname`。 4. 大数据的价值密度相对较低,因为海量数据中蕴含的有价值信息比例较小。大数据的价值不在于数据量的大小,而在于如何从大量复杂数据中提取有用信息。 5. Hadoop 的三种安装模式包括:单机模式、伪分布模式和完全分布式模式。两分布式模式并非标准配置。 6. 非结构化数据是指没有固定格式或预定义结构的数据,例如视频监控数据。ERP 数据、财务系统数据和日志数据都属于结构化数据。 7. HDFS(Hadoop 分布式文件系统)中负责数据存储的是 DataNode。 8. HDFS 1.0 的默认 Block Size 是 64MB。 9. Hadoop-2.x 集群中,默认的 HDFS 副本块的个数是 3,以提供冗余和容错能力。 10. DataNode 是 HDFS 中的存储节点,每个 DataNode 存储的数据块通常是唯一的,它们负责存储客户端上传的数据,并响应客户端的读写请求。DataNode 之间会进行通信以同步数据。 11. SecondaryNameNode 主要职责是协助 NameNode 合并编辑日志,降低 NameNode 的负载,减少冷启动时的加载时间。它不是 NameNode 的热备,而是提供周期性的辅助服务。 12. 一个 75MB 的 gzip 文件在客户端 Block 大小为 64MB 的情况下,将占用 2 个 Block,因为最后一个 Block 不足 64MB。 13. 当 HDFS 中的 gzip 文件大小为 75MB,Block 大小为 64MB,运行 MapReduce 任务时,input split 大小为整个文件大小,即 75MB。MapReduce 会根据文件大小自动调整输入分片。 14. 对于 LZO(带索引)压缩的文件,即使文件大小为 75MB,客户端设置 Block 大小为 64MB,MapReduce 任务的 input split 大小可能仍会拆分为两个部分,即一个 map 读取 64MB,另一个 map 读取剩下的 11MB。 15. 当客户端上传文件到 HDFS 时,数据不会经过 NameNode 传递给 DataNode,而是直接由客户端写入 DataNode,并通过 NameNode 进行元数据管理。 以上是对Hadoop相关知识点的详细解析,涵盖了Hadoop的基本概念、组件功能、文件系统的存储机制以及MapReduce的工作原理等方面。这些知识对于理解Hadoop大数据处理框架及其生态系统至关重要。
剩余36页未读,继续阅读
- 粉丝: 0
- 资源: 11
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助