没有合适的资源?快使用搜索试试~ 我知道了~
大数据面试题 100道 汇总
需积分: 5 0 下载量 83 浏览量
2023-04-12
13:41:26
上传
评论
收藏 3.65MB PDF 举报
温馨提示
试读
62页
汇总当前最热门的Java 大数据面试题,方便大家能迅速刷题,也能迅速判断自己的刷题情况,是否能从容应对面试。让我们共同面对这个卷卷的时代
资源推荐
资源详情
资源评论
大数据工程师面试题
1. 选择题
1.1. 下面哪个程序负责 HDFS 数据存储。
a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker
答案 C datanode
1.2. HDfS 中的 block 默认保存几份?
a)3 份 b)2 份 c)1 份 d)不确定
答案 A 默认 3 份
1.3. 下列哪个程序通常与 NameNode 在一个节点启动?
a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker
答案 D
1.4. HDFS 默认 Block Size
a)32MB b)64MB c)128MB
答案:B
1.5. 下列哪项通常是集群的最主要瓶颈
a)CPU b)网络 c)磁盘 IO d)内存
答案:C 磁盘
首先集群的目的是为了节省成本,用廉价的 pc 机,取代小型机及大型机。小型机和大型机
有什么特点?
1.cpu 处理能力强
2.内存够大,所以集群的瓶颈不可能是 a 和 d
微信公众号:Java架构师进阶编程
3.如果是互联网有瓶颈,可以让集群搭建内网。每次写入数据都要通过网络(集群是内网),
然后还要写入 3 份数据,所以 IO 就会打折扣。
1.6. 关于 SecondaryNameNode 哪项是正确的?
a)它是 NameNode 的热备 b)它对内存没有要求
c)它的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间
d)SecondaryNameNode 应与 NameNode 部署到一个节点
答案 C。
1.7. 下列哪项可以作为集群的管理?
a)Puppet b)Pdsh c)Cloudera Manager d)Zookeeper
答案 ABD
具体可查看什么是 Zookeeper,Zookeeper 的作用是什么,在 Hadoop 及 hbase 中具体作
用是什么。
1.8. Client 端上传文件的时候下列哪项正确
a)数据经过 NameNode 传递给 DataNode
b)Client 端将文件切分为 Block,依次上传
c)Client 只上传数据到一台 DataNode,然后由 NameNode 负责 Block 复制工作
答案 B
分析:Client 向 NameNode 发起文件写入的请求。NameNode 根据文件大小和文件块配置
情况,返回给 Client 它所管理部分 DataNode 的信息。Client 将文件划分为多个 Block,根
据 DataNode 的地址信息,按顺序写入到每一个 DataNode 块中。具体查看 HDFS 体系结构
简介及优缺点。
1.9. 下列哪个是 Hadoop 运行的模式
a)单机版 b)伪分布式 c)分布式
答案 ABC 单机版,伪分布式只是学习用的。
微信公众号:Java架构师进阶编程
2. 面试题
2.1. Hadoop 的核心配置是什么?
Hadoop 的核心配置通过两个 xml 文件来完成:1,hadoop-default.xml;2,hadoop-site.xml。
这些文件都使用 xml 格式,因此每个 xml 中都有一些属性,包括名称和值,但是当下这些文
件都已不复存在。
2.2. 那当下又该如何配置?
Hadoop 现在拥有 3 个配置文件:1,core-site.xml;2,hdfs-site.xml;3,mapred-site.xml。这
些文件都保存在 conf/子目录下。
2.3. “jps”命令的用处?
这个命令可以检查 Namenode、Datanode、Task Tracker、 Job Tracker 是否正常工作。
2.4. mapreduce 的原理?
微信公众号:Java架构师进阶编程
2.5. HDFS 存储的机制?
2.5.1. hdfs 写流程
流程:
1、 client 链接 namenode 存数据
2、 namenode 记录一条数据位置信息(元数据),告诉 client 存哪。
3、 client 用 hdfs 的 api 将数据块(默认是 64M)存储到 datanode 上。
4、 datanode 将数据水平备份。并且备份完将反馈 client。
5、 client 通知 namenode 存储块完毕。
6、 namenode 将元数据同步到内存中。
7、 另一块循环上面的过程。
微信公众号:Java架构师进阶编程
2.5.2. 读流程
流程:
1、 client 链接 namenode,查看元数据,找到数据的存储位置。
2、 client 通过 hdfs 的 api 并发读取数据。
3、 关闭连接。
2.6. 举一个简单的例子说明 mapreduce 是怎么来运行的 ?
wordcount 的例子
2.7. 用 mapreduce 来实现下面需求?
现在有 10 个文件夹,每个文件夹都有 1000000 个 url.现在让你找出 top1000000url。
解答:topk
(还可以用 treeMap, 到 1000000 了每来一个都加进去, 删掉最小的)
微信公众号:Java架构师进阶编程
剩余61页未读,继续阅读
资源评论
丶张豪哥
- 粉丝: 48
- 资源: 50
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 很好的一个叫做了 csy 的天空的模拟系统的软件的注册311,很好的开发依赖开发的过程
- mysql-source-course-master.zip
- 很好用cyber很好用sky很好用311很好很好用,注册的
- 一个非常不错的天空数字化的模拟331的注册,很好用的系统的开发
- 一个天空的模拟软件,csky331r,很好的一个模拟
- Python绘图画板程序 自由绘制 直线 矩形 椭圆 画笔调整 PyQt6
- 555555555.MP3
- 一个简单好用的 Vue3 项目启动套件-从项目构建到开发(开箱即用)
- 813731243373942app.apk
- NRF24L01无线串口模块软硬件资料(参考原理图+上位机+软件例程通信程序+技术文档).zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功