"大数据 50 道面试题及答案" Hadoop 集群可以运行的三种模式分别是单机(本地)模式、伪分布式模式和全分布式模式。 在单机(standalone)模式中,所有程序都运行在一个 JVM 上,不存在守护进程,也没有分布式文件系统(DFS),而是使用本地文件系统。这种模式通常用于开发过程中运行 MapReduce 程序,是最少使用的一个模式。 伪分布式(Pseudo)模式适用于开发和测试环境,在这个模式中,所有守护进程都在同一台机器上运行。这种模式不同于虚拟机(VM),只是 Hadoop 的一种特殊模式。 全分布式模式通常被用于生产环境,在这个模式中,我们使用 N 台主机组成一个 Hadoop 集群,Hadoop 守护进程运行在每台主机之上。这里会存在 Namenode 运行的主机、Datanode 运行的主机,以及 Task Tracker 运行的主机。在分布式环境下,主节点和从节点会分开。 Hadoop 是否遵循 UNIX 模式?是的,在 UNIX 用例下,Hadoop 还拥有“conf”目录。Hadoop 安装在什么目录下?Cloudera 和 Apache 使用相同的目录结构,Hadoop 被安装在 `/usr/lib/hadoop-0.20`。 Namenode、Job Tracker 和 Task Tracker 的端口号是?Namenode 是 70,Job Tracker 是 30,Task Tracker 是 60。 Hadoop 的核心配置是通过两个 XML 文件来完成的:`hadoop-default.xml` 和 `hadoop-site.xml`。这些文件都使用 XML 格式,因此每个 XML 中都有一些属性,包括名称和值。 RAM 的溢出因子是?溢出因子(Spill Factor)是临时文件中存储文件的大小,也就是 Hadoop-temp 目录。 FS.mapr.working.dir 只是一个目录。 hdfs-site.xml 的三个主要属性?dfs.name.dir 决定的是元数据存储的路径以及 DFS 的存储方式(磁盘或是远端),dfs.data.dir 决定的是数据存储的路径,fs.checkpoint.dir 用于第二 Namenode。 如何退出输入模式?退出输入的方式有:1,按 ESC;2,键入 q(如果你没有输入任何当下)或者键入 wq(如果你已经输入当下),并且按下 Enter。这意味着 Namenode 没有运行在你的 VM 之上。 我们使用 Ubuntu 及 Cloudera,那么我们该去哪里下载 Hadoop,或者是默认就与 Ubuntu 一起安装?这个属于 Hadoop 的默认配置,你必须从 Cloudera 或者 Edureka 的 Dropbox 下载,然后在你的系统上运行。 “jps” 命令的用处?这个命令可以检查 Namenode、Datanode、Task Tracker、Job Tracker 是否正常工作。 当你输入 hadoop fsck 造成“connection refused java exception”时,系统究竟发生了什么?如何重启 Namenode?点击 stop-all.sh,然后点击 start-all.sh。键入 sudo hdfs(Enter),su-hdfs(Enter),etcinit.d ha(Enter),及 etcinit.d hadoop-0.20-namenode start(Enter)。 Fsck 的全名?全名是:File System Check。 如何检查 Namenode 是否正常运行?如果要检查 Namenode 是否正常工作,使用命令 etcinit.d hadoop-0.20-namenode status 或者就是简单的 jps。 mapred.job.tracker 命令的作用?可以让你知道哪个节点是 Job Tracker。 etc init.d 命令的作用是?etc init.d 说明了守护进程(服务)的位置或状态,实际是 LINUX 特性,并且与 Hadoop 关系不大。 如何在浏览器中查找 Namenode?如果你确实需要在浏览器中查找 Namenode,你不再需要 localhost8021,Namenode 的端口号是 50070。 如何从 SU 转到 C?
剩余9页未读,继续阅读
- 粉丝: 30
- 资源: 1844
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助