【免费】大数据面试题，找工作前必刷！资源-CSDN文库

需积分: 0 78 浏览量 2024-05-08 17:53:36 上传评论收藏 992KB PDF 举报

资源推荐

资源详情

资源评论

数据采集面试题 ....................................................................................................................... 6

Flume ............................................................................................................................... 7

1. Flume 使用场景................................................................................................ 7

2. Flume 丢包问题................................................................................................ 7

3. Flume 与 Kafka 的选取 ................................................................................... 7

4. 数据怎么采集到 Kafka，实现方式 ................................................................. 9

5. flume 管道内存，flume 宕机了数据丢失怎么解决 ....................................... 9

6. flume 配置方式，flume 集群（详细讲解下） ............................................... 9

7. flume 不采集 Nginx 日志，通过 Logger4j 采集日志，优缺点是什么？ 10

8. flume 和 kafka 采集日志区别，采集日志时中间停了，怎么记录之前的日

志？ ......................................................................................................................... 10

9. flume 有哪些组件，flume 的 source、channel、sink 具体是做什么的

10数据存储面试题 ................................................................................................................ 12

HDFS .............................................................................................................................. 12

1. 请说下 HDFS 读写流程 .................................................................................. 12

2. HDFS 在读取文件的时候,如果其中一个块突然损坏了怎么办 .................. 14

3. HDFS 在上传文件的时候,如果其中一个 DataNode 突然挂掉了怎么办.. 14

4. 请说下 HDFS 的组织架构 ................................................................................ 15

Kafka .............................................................................................................................. 16

5. 为什么要使用 kafka？ ..................................................................................... 16

6. Kafka 消费过的消息如何再消费？ ................................................................. 17

7. kafka 的数据是放在磁盘上还是内存上，为什么速度会快？ ...................... 17

8. Kafka 数据怎么保障不丢失？ ......................................................................... 18

9. 采集数据为什么选择 kafka？.......................................................................... 20

10. kafka 重启是否会导致数据丢失？ ............................................................... 20

11. kafka 宕机了如何解决？ ............................................................................... 20

12. 为什么 Kafka 不支持读写分离？ .................................................................. 21

13. kafka 数据分区和消费者的关系？ ............................................................... 22

14. kafka 的数据 offset 读取流程 ...................................................................... 22

15. kafka 内部如何保证顺序，结合外部组件如何保证消费者的顺序？ ....... 22

16. Kafka 消息数据积压，Kafka 消费能力不足怎么处理？............................ 22

17. Kafka 单条日志传输大小 ............................................................................... 23

数据处理面试题 ..................................................................................................................... 24

Flink ........................................................................................................................................ 24

1. Flink checkpoint 与 Spark Flink 有什么区别或优势吗 .............................. 24

2. Flink 中的 Time 有哪几种 ............................................................................... 24

3. 对于迟到数据是怎么处理的 ............................................................................. 24

4. Flink 的运行必须依赖 Hadoop 组件吗 ......................................................... 25

5. Flink 集群有哪些角色？各自有什么作用 ....................................................... 25

6. Flink 资源管理中 Task Slot 的概念 ............................................................... 26

7. Flink 的重启策略了解吗 ................................................................................... 26

8. Flink 是如何保证 Exactly-once 语义的 ......................................................... 27

9. 如果下级存储不支持事务，Flink 怎么保证 exactly-once ......................... 27

10. Flink 是如何处理反压的 ................................................................................ 28

11. Flink 中的状态存储 ........................................................................................ 28

12. Flink 是如何支持批流一体的......................................................................... 28

13. Flink 的内存管理是如何做的......................................................................... 28

14. Flink CEP 编程中当状态没有到达的时候会将数据保存在哪里 ................ 29

15. 讲一下 flink 的运行架构......................................................................... 29

16. 讲一下 flink 的作业执行流程 ................................................................. 30

Spark .............................................................................................................................. 32

1. spark 如何保证宕机迅速恢复? ..................................................................... 32

2. Spark streaming 以及基本工作原理？ ...................................................... 32

3. spark 有哪些组件？ ....................................................................................... 33

4. spark 工作机制？ ........................................................................................... 33

5. Spark 主备切换机制原理知道吗？............................................................... 34

6. spark 的有几种部署模式，每种模式特点？ ............................................... 34

7. Spark 为什么比 mapreduce 快？ ............................................................... 36

8. 简单说一下 hadoop 和 spark 的 shuffle 相同和差异？ ........................... 36

9. spark 工作机制 ............................................................................................... 37

10. spark 的优化怎么做？ ........................................................................... 38

11. 数据本地性是在哪个环节确定的？ ....................................................... 39

12. RDD 的弹性表现在哪几点？ ................................................................. 39

13. RDD 有哪些缺陷？ ................................................................................. 39

14. Spark 的 shuffle 过程？ ........................................................................ 40

15. Spark 的数据本地性有哪几种？ ........................................................... 40

7. 写出 hive 中 split、coalesce 及 collect_list 函数的用法（可举例）？ 52

8. Hive 有哪些方式保存元数据，各有哪些特点？ ......................................... 53

9. Hive 内部表和外部表的区别？ ..................................................................... 53

10. Hive 中的压缩格式 TextFile、SequenceFile、RCfile 、ORCfile 各

有什么区别？ ......................................................................................................... 54

11. 所有的 Hive 任务都会有 MapReduce 的执行吗？............................ 55

12. Hive 的函数：UDF、UDAF、UDTF 的区别？ ................................... 55

13. 说说对 Hive 桶表的理解？ .................................................................... 56

数据查询面试题 ............................................................................................................. 57

HBase ............................................................................................................................. 57

1. HBase 的特点是什么？ ................................................................................. 57

2. HBase 适用于怎样的情景？ ......................................................................... 57

3. 描述 HBase 的 rowKey 的设计原则？ ........................................................ 58

4. 描述 HBase 中 scan 和 get 的功能以及实现的异同？ .............................. 60

5. 请详细描述 HBase 中一个 cell 的结构？ .................................................... 60

6. 简述 HBase 中 compact 用途是什么，什么时候触发，分为哪两种，有

什么区别，有哪些相关配置参数？ .................................................................... 61

7. 每天百亿数据存入 HBase，如何保证数据的存储正确和在规定的时间里

全部录入完毕，不残留数据？ ............................................................................ 61

8. 请列举几个 HBase 优化方法？ .................................................................... 62

9. Region 如何预建分区？ ................................................................................ 65

10. HRegionServer 宕机如何处理？ ......................................................... 66

剩余70页未读，继续阅读

评论收藏

内容反馈

数据治理圈

粉丝: 98
资源: 5

大数据面试题，找工作前必刷！

01-Java公司面试真题 02-Java面试文档 03-大数据面试文档 04-Java必知必会108题

以下是一些大数据面试习题.pdf

大数据面试题及面试经验分享.zip

最全的大数据大厂面试宝典，大数据面试题，大数据面试，王傲旗的大数据之路，大数据成神之路

史上最全的大数据面试题-大数据开发者必看.docx

大数据工作面试练习题 BAT大数据面试题 Hadoop、kafka、HDFS、Spark、MapReduce 共19页.pdf

java大数据面试真题含答案.rar

大数据精选面试题目27道分享大数据常见面试题

java 必会108题，大数据面试文档，Java面试文档，Java公司面试真题

决战大数据之巅-面试习题

大数据开发面试题，吐血整理

广州-唯品会-Java大数据开发面试真题

阿里等大厂java面试题新.docx

中型企业大数据面试纪录

字节跳动应届生大数据面试提，面试时长一小时

大数据面试宝典 .docx

Scala-升级版.docx

基于spark的图书推荐系统

大数据期末课设~基于spark的气象数据处理与分析

全国职业技能大赛大数据赛项十套赛题（shtd）

全国2014-2018年空气质量csv数据集文件数据

大数据全套教程完整版

spark-3.3.1-bin-3.0.0-cdh6.3.2.tgz

Spark气象监测数据分析：代码整合，包括预处理，分析，数据可视化

基于hadoop和echarts的教育大数据可视化系统

python爬虫爬取股票评论，调用百度AI进行语义分析， matlab数据处理，股票涨跌和评论的关系

大数据面试大总结300页.zip

spark-3.1.3-bin-hadoop3.2.tgz

最新资源