hadoop常见面试题
Hadoop 面试题知识点总结 本文将详细解释 Hadoop 面试题的知识点,涵盖 Hadoop 集群的三种模式、 Namenode、Job tracker 和 Task tracker 的端口号、Hadoop 的核心配置、RAM 的溢出因子等。 Hadoop 集群的三种模式 Hadoop 集群可以运行的三种模式分别是单机(本地)模式、伪分布式模式和全分布式模式。单机模式适用于开发过程中运行 MapReduce 程序,这也是最少使用的一个模式。在单机模式中不会存在守护进程,所有东西都运行在一个 JVM 上。伪分布模式适用于开发和测试环境,在这个模式中,所有守护进程都在同一台机器上运行。全分布模式通常被用于生产环境,这里我们使用 N 台主机组成一个 Hadoop 集群,Hadoop 守护进程运行在每台主机之上。 Namenode、Job tracker 和 Task tracker 的端口号 Namenode、Job tracker 和 Task tracker 的端口号分别是 70、30 和 60。 Hadoop 的核心配置 Hadoop 的核心配置通过三个 xml 文件来完成:core-site.xml、hdfs-site.xml 和 mapred-site.xml。这些文件都保存在 conf/子目录下。 RAM 的溢出因子 溢出因子(Spill factor)是临时文件中储存文件的大小,也就是 Hadoop-temp 目录。 fs.mapr.working.dir fs.mapr.working.dir 只是一个目录。 hdfs-site.xml 的 3 个主要属性 hdfs-site.xml 的 3 个主要属性分别是 dfs.name.dir、dfs.data.dir 和 fs.checkpoint.dir。dfs.name.dir 决定的是元数据存储的路径以及 DFS 的存储方式(磁盘或是远端)。dfs.data.dir 决定的是数据存储的路径。fs.checkpoint.dir 用于第二 Namenode。 如何退出输入模式 退出输入的方式有两种:按 ESC 键或键入:q(如果你没有输入任何东西)或者键入:wq(如果你已经输入东西),并且按下 Enter 键。 当你输入 hadoopfsck /造成“connection refused java exception’”时 这意味着 Namenode 没有运行在你的 VM 之上。 如何下载 Hadoop 你可以从 Cloudera 或者 Edureka 的 dropbox 下载 Hadoop,然后在你的系统上运行。 “jps”命令的用处 这个命令可以检查 Namenode、Datanode、Task Tracker、Job Tracker 是否正常工作。 如何重启 Namenode 可以使用以下两种方法:点击 stop-all.sh,再点击 start-all.sh;或键入 sudo hdfs(Enter),su-hdfs(Enter),/etc/init.d/ha(Enter),及/etc/init.d/hadoop-0.20-namenode start(Enter)。 Fsck 的全名 Fsck 的全名是:File System Check。 如何检查 Namenode 是否正常运行 如果要检查 Namenode 是否正常工作,使用命令 /etc/init.d/hadoop-0.20-namenode status 或者简单的 jps 命令。
- Wolfias2014-08-19都是很实用的问题
- 粉丝: 0
- 资源: 1
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助