Hadoop面试题汇总.doc资源-CSDN文库

版权申诉

152 浏览量 2021-10-07 08:21:36 上传评论收藏 93KB DOC 举报

在Hadoop生态系统中，面试题涉及了许多核心概念和组件，以下是对这些题目中涉及的知识点的详细解释： 1. **Datanode**：HDFS（Hadoop Distributed File System）的数据存储由Datanode负责，它们是HDFS的分布式存储单元，实际存储数据块。 2. **HDFS的Block默认副本数**：默认情况下，每个HDFS文件块被复制3次，以提供容错性和高可用性。 3. **NameNode**：NameNode通常与JobTracker不在同一节点启动，NameNode是HDFS的主节点，负责元数据管理；JobTracker是MapReduce框架的一部分，负责作业调度和任务分配。 4. **Hadoop的创始人**：Doug Cutting是Hadoop的创始人，他也是Nutch和Lucene项目的创始人。Solr并非由他创立。 5. **HDFS的Block Size**：在Hadoop的不同版本中，Block Size有所不同，1.x版本为64MB，2.x版本升级为128MB。 6. **集群瓶颈**：在大多数Hadoop集群中，磁盘I/O通常是主要瓶颈，因为数据读写速度对系统性能有很大影响。 7. **JAVA_HOME配置**：在配置Hadoop时，JAVA_HOME环境变量通常设置在`hadoop-env.sh`文件中，而不是XML配置文件。 8. **hadoop-site.xml**：这个文件用于覆盖默认配置，且在某些版本中，配置被拆分为`mapred-site.xml`, `core-site.xml` 和 `hdfs-site.xml`。 9. **fs.default.name**：此配置项指定了HDFS的默认文件系统，它应在`core-site.xml`中定义。 10. **Hadoop运行模式**：单机模式不启动守护进程，而伪分布式模式则在本地模拟分布式环境，包括HDFS的输入输出。 11. **Hadoop守护进程**：在伪分布式模式下，可以与守护进程交互并检查存储使用情况，而单机模式则简化了这一过程。 12. **Hadoop API**：Hadoop的文件API可以用于多种文件系统，不仅限于HDFS；`Configuration`类的默认实例化方法确实基于HDFS配置；`FileStatus`对象包含了文件和目录的元数据信息；`FSDataInputStream`是`java.io.DataInputStream`的子类，用于读取HDFS中的数据。 13. **NameNode的元数据**：NameNode保存文件系统的命名空间信息，包括日志和命名空间镜像两个文件，这些信息在系统启动时从Datanodes收集。 14. **Namenode信息存储**：Namenode并不直接在硬盘上存储文件到数据块的映射，而是从Datanodes获取这些信息，并在内存中维护。 15. **Secondary Namenode**：Secondary Namenode并不是备份Namenode的简单副本，它的主要功能是定期合并NameNode的元数据日志，以防止NameNode的元数据文件过大，从而提高系统稳定性。以上知识点涵盖了Hadoop生态系统的基础架构、配置、运行模式以及关键组件的功能，对于理解Hadoop的工作原理和面试准备非常有帮助。在实际面试中，面试者还需要掌握更多关于Hadoop MapReduce、YARN、HBase、Hive等其他组件的知识，以及故障处理、性能优化等方面的实践经验。

资源推荐

资源评论