【免费】大数据50道面试题及答案.docx资源-CSDN文库

需积分: 0 108 浏览量 2023-07-08 13:38:01 上传评论收藏 53KB DOCX 举报

"大数据 50 道面试题及答案" Hadoop 集群可以运行的三种模式分别是单机（本地）模式、伪分布式模式和全分布式模式。在单机（standalone）模式中，所有程序都运行在一个 JVM 上，不存在守护进程，也没有分布式文件系统（DFS），而是使用本地文件系统。这种模式通常用于开发过程中运行 MapReduce 程序，是最少使用的一个模式。伪分布式（Pseudo）模式适用于开发和测试环境，在这个模式中，所有守护进程都在同一台机器上运行。这种模式不同于虚拟机（VM），只是 Hadoop 的一种特殊模式。全分布式模式通常被用于生产环境，在这个模式中，我们使用 N 台主机组成一个 Hadoop 集群，Hadoop 守护进程运行在每台主机之上。这里会存在 Namenode 运行的主机、Datanode 运行的主机，以及 Task Tracker 运行的主机。在分布式环境下，主节点和从节点会分开。 Hadoop 是否遵循 UNIX 模式？是的，在 UNIX 用例下，Hadoop 还拥有“conf”目录。Hadoop 安装在什么目录下？Cloudera 和 Apache 使用相同的目录结构，Hadoop 被安装在 `/usr/lib/hadoop-0.20`。 Namenode、Job Tracker 和 Task Tracker 的端口号是？Namenode 是 70，Job Tracker 是 30，Task Tracker 是 60。 Hadoop 的核心配置是通过两个 XML 文件来完成的：`hadoop-default.xml` 和 `hadoop-site.xml`。这些文件都使用 XML 格式，因此每个 XML 中都有一些属性，包括名称和值。 RAM 的溢出因子是？溢出因子（Spill Factor）是临时文件中存储文件的大小，也就是 Hadoop-temp 目录。 FS.mapr.working.dir 只是一个目录。 hdfs-site.xml 的三个主要属性？dfs.name.dir 决定的是元数据存储的路径以及 DFS 的存储方式（磁盘或是远端），dfs.data.dir 决定的是数据存储的路径，fs.checkpoint.dir 用于第二 Namenode。如何退出输入模式？退出输入的方式有：1，按 ESC；2，键入 q（如果你没有输入任何当下）或者键入 wq（如果你已经输入当下），并且按下 Enter。这意味着 Namenode 没有运行在你的 VM 之上。我们使用 Ubuntu 及 Cloudera，那么我们该去哪里下载 Hadoop，或者是默认就与 Ubuntu 一起安装？这个属于 Hadoop 的默认配置，你必须从 Cloudera 或者 Edureka 的 Dropbox 下载，然后在你的系统上运行。 “jps” 命令的用处？这个命令可以检查 Namenode、Datanode、Task Tracker、Job Tracker 是否正常工作。当你输入 hadoop fsck 造成“connection refused java exception”时，系统究竟发生了什么？如何重启 Namenode？点击 stop-all.sh，然后点击 start-all.sh。键入 sudo hdfs（Enter），su-hdfs（Enter），etcinit.d ha（Enter），及 etcinit.d hadoop-0.20-namenode start（Enter）。 Fsck 的全名？全名是：File System Check。如何检查 Namenode 是否正常运行？如果要检查 Namenode 是否正常工作，使用命令 etcinit.d hadoop-0.20-namenode status 或者就是简单的 jps。 mapred.job.tracker 命令的作用？可以让你知道哪个节点是 Job Tracker。 etc init.d 命令的作用是？etc init.d 说明了守护进程（服务）的位置或状态，实际是 LINUX 特性，并且与 Hadoop 关系不大。如何在浏览器中查找 Namenode？如果你确实需要在浏览器中查找 Namenode，你不再需要 localhost8021，Namenode 的端口号是 50070。如何从 SU 转到 C？

资源推荐

资源详情

资源评论