没有合适的资源？快使用搜索试试~ 我知道了~

文库首页后端Java大数据面试题 100道汇总

大数据面试题 100道汇总

需积分: 5 0 下载量 83 浏览量 2023-04-12 13:41:26 上传评论收藏 3.65MB PDF 举报

温馨提示

试读

62页

汇总当前最热门的Java 大数据面试题，方便大家能迅速刷题，也能迅速判断自己的刷题情况，是否能从容应对面试。让我们共同面对这个卷卷的时代

资源推荐

资源详情

资源评论

大数据工程师面试题

1. 选择题

1.1. 下面哪个程序负责 HDFS 数据存储。

a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker

答案 C datanode

1.2. HDfS 中的 block 默认保存几份？

a)3 份 b)2 份 c)1 份 d)不确定

答案 A 默认 3 份

1.3. 下列哪个程序通常与 NameNode 在一个节点启动?

a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker

答案 D

1.4. HDFS 默认 Block Size

a)32MB b)64MB c)128MB

答案：B

1.5. 下列哪项通常是集群的最主要瓶颈

a)CPU b)网络 c)磁盘 IO d)内存

答案：C 磁盘

首先集群的目的是为了节省成本，用廉价的 pc 机，取代小型机及大型机。小型机和大型机

有什么特点？

1.cpu 处理能力强

2.内存够大，所以集群的瓶颈不可能是 a 和 d

微信公众号：Java架构师进阶编程

3.如果是互联网有瓶颈，可以让集群搭建内网。每次写入数据都要通过网络（集群是内网），

然后还要写入 3 份数据，所以 IO 就会打折扣。

1.6. 关于 SecondaryNameNode 哪项是正确的？

a)它是 NameNode 的热备 b)它对内存没有要求

c)它的目的是帮助 NameNode 合并编辑日志，减少 NameNode 启动时间

d)SecondaryNameNode 应与 NameNode 部署到一个节点

答案 C。

1.7. 下列哪项可以作为集群的管理？

a)Puppet b)Pdsh c)Cloudera Manager d)Zookeeper

答案 ABD

具体可查看什么是 Zookeeper，Zookeeper 的作用是什么，在 Hadoop 及 hbase 中具体作

用是什么。

1.8. Client 端上传文件的时候下列哪项正确

a)数据经过 NameNode 传递给 DataNode

b)Client 端将文件切分为 Block，依次上传

c)Client 只上传数据到一台 DataNode，然后由 NameNode 负责 Block 复制工作

答案 B

分析：Client 向 NameNode 发起文件写入的请求。NameNode 根据文件大小和文件块配置

情况，返回给 Client 它所管理部分 DataNode 的信息。Client 将文件划分为多个 Block，根

据 DataNode 的地址信息，按顺序写入到每一个 DataNode 块中。具体查看 HDFS 体系结构

简介及优缺点。

1.9. 下列哪个是 Hadoop 运行的模式

a)单机版 b)伪分布式 c)分布式

答案 ABC 单机版,伪分布式只是学习用的。

微信公众号：Java架构师进阶编程

2. 面试题

2.1. Hadoop 的核心配置是什么？

Hadoop 的核心配置通过两个 xml 文件来完成：1，hadoop-default.xml；2，hadoop-site.xml。

这些文件都使用 xml 格式，因此每个 xml 中都有一些属性，包括名称和值，但是当下这些文

件都已不复存在。

2.2. 那当下又该如何配置？

Hadoop 现在拥有 3 个配置文件：1，core-site.xml；2，hdfs-site.xml；3，mapred-site.xml。这

些文件都保存在 conf/子目录下。

2.3. “jps”命令的用处？

这个命令可以检查 Namenode、Datanode、Task Tracker、 Job Tracker 是否正常工作。

2.4. mapreduce 的原理?

微信公众号：Java架构师进阶编程

2.5. HDFS 存储的机制?

2.5.1. hdfs 写流程

流程：

1、 client 链接 namenode 存数据

2、 namenode 记录一条数据位置信息（元数据），告诉 client 存哪。

3、 client 用 hdfs 的 api 将数据块（默认是 64M）存储到 datanode 上。

4、 datanode 将数据水平备份。并且备份完将反馈 client。

5、 client 通知 namenode 存储块完毕。

6、 namenode 将元数据同步到内存中。

7、另一块循环上面的过程。

微信公众号：Java架构师进阶编程

2.5.2. 读流程

流程：

1、 client 链接 namenode，查看元数据，找到数据的存储位置。

2、 client 通过 hdfs 的 api 并发读取数据。

3、关闭连接。

2.6. 举一个简单的例子说明 mapreduce 是怎么来运行的 ?

wordcount 的例子

2.7. 用 mapreduce 来实现下面需求？

现在有 10 个文件夹,每个文件夹都有 1000000 个 url.现在让你找出 top1000000url。

解答：topk

(还可以用 treeMap, 到 1000000 了每来一个都加进去, 删掉最小的)

微信公众号：Java架构师进阶编程

剩余61页未读，继续阅读

评论收藏

内容反馈

资源评论

资源反馈

评论星级较低，若资源使用遇到问题可联系上传者，3个工作日内问题未解决可申请退款~

丶张豪哥

粉丝: 48
资源: 50

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

大数据面试题 100道 汇总

大数据面试笔试资料-56家互联网大公司面试笔试题资料整理汇总.zip

2020大数据面试题总汇

最热门的大数据面试题汇总

大数据Spark面试题汇总

2023最新JAVA面试题集

Java面试题资料合集-44套.rar

大数据最新面试题，2021年面试题及答案汇总.md

大数据最新面试题2021年，常见面试题及答案汇总.md

大数据各大组件面试题.rtf

2023最新最强大数据面试题汇总

大数据最新面试题及答案附答案汇总.md

大数据面试汇总.zip

最新2023面试题及答案汇总

大数据基础面试题hadoop,zookeeper,hbase,hive,spark,kafka,flink,clickhouse

大数据知识汇总+面试题收集.pdf

互联网大厂数据产品经理和商业分析面试题汇总.pdf

2018年黑马程序最新面试题汇总

00-大数据技术之高频面试题+汇总.pdf

大数据最新2021年面试题大汇总，附答案.md

安卓期末大作业（AndroidStudio开发），垃圾分类助手app，分为前台后台，代码有注释，均能正常运行

Notepad++安装包

SwitchHosts

微信小程序源码-合集1.rar

2024北森能力测评题库.7z

Java面试八股文2023最新版

ruoyi-vue-pro 芋道源码项目的表结构

jdk-11-windows-x64.zip

Linux Centos7 升级最新版OpenSSH-9.6p1 有脚本（支持离线）

ruoyi-vue-pro开发指南PDF下载

最新资源

大数据面试题 100道汇总