没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
数据采集面试题 ....................................................................................................................... 6
Flume ............................................................................................................................... 7
1. Flume 使用场景................................................................................................ 7
2. Flume 丢包问题................................................................................................ 7
3. Flume 与 Kafka 的选取 ................................................................................... 7
4. 数据怎么采集到 Kafka,实现方式 ................................................................. 9
5. flume 管道内存,flume 宕机了数据丢失怎么解决 ....................................... 9
6. flume 配置方式,flume 集群(详细讲解下) ............................................... 9
7. flume 不采集 Nginx 日志,通过 Logger4j 采集日志,优缺点是什么? 10
8. flume 和 kafka 采集日志区别,采集日志时中间停了,怎么记录之前的日
志? ......................................................................................................................... 10
9. flume 有哪些组件,flume 的 source、channel、sink 具体是做什么的
10数据存储面试题 ................................................................................................................ 12
HDFS .............................................................................................................................. 12
1. 请说下 HDFS 读写流程 .................................................................................. 12
2. HDFS 在读取文件的时候,如果其中一个块突然损坏了怎么办 .................. 14
3. HDFS 在上传文件的时候,如果其中一个 DataNode 突然挂掉了怎么办.. 14
4. 请说下 HDFS 的组织架构 ................................................................................ 15
Kafka .............................................................................................................................. 16
5. 为什么要使用 kafka? ..................................................................................... 16
6. Kafka 消费过的消息如何再消费? ................................................................. 17
7. kafka 的数据是放在磁盘上还是内存上,为什么速度会快? ...................... 17
8. Kafka 数据怎么保障不丢失? ......................................................................... 18
9. 采集数据为什么选择 kafka?.......................................................................... 20
10. kafka 重启是否会导致数据丢失? ............................................................... 20
11. kafka 宕机了如何解决? ............................................................................... 20
12. 为什么 Kafka 不支持读写分离? .................................................................. 21
13. kafka 数据分区和消费者的关系? ............................................................... 22
14. kafka 的数据 offset 读取流程 ...................................................................... 22
15. kafka 内部如何保证顺序,结合外部组件如何保证消费者的顺序? ....... 22
16. Kafka 消息数据积压,Kafka 消费能力不足怎么处理?............................ 22
17. Kafka 单条日志传输大小 ............................................................................... 23
数据处理面试题 ..................................................................................................................... 24
Flink ........................................................................................................................................ 24
1. Flink checkpoint 与 Spark Flink 有什么区别或优势吗 .............................. 24
2. Flink 中的 Time 有哪几种 ............................................................................... 24
3. 对于迟到数据是怎么处理的 ............................................................................. 24
4. Flink 的运行必须依赖 Hadoop 组件吗 ......................................................... 25
5. Flink 集群有哪些角色?各自有什么作用 ....................................................... 25
6. Flink 资源管理中 Task Slot 的概念 ............................................................... 26
7. Flink 的重启策略了解吗 ................................................................................... 26
8. Flink 是如何保证 Exactly-once 语义的 ......................................................... 27
9. 如果下级存储不支持事务,Flink 怎么保证 exactly-once ......................... 27
10. Flink 是如何处理反压的 ................................................................................ 28
11. Flink 中的状态存储 ........................................................................................ 28
12. Flink 是如何支持批流一体的......................................................................... 28
13. Flink 的内存管理是如何做的......................................................................... 28
14. Flink CEP 编程中当状态没有到达的时候会将数据保存在哪里 ................ 29
15. 讲一下 flink 的运行架构......................................................................... 29
16. 讲一下 flink 的作业执行流程 ................................................................. 30
Spark .............................................................................................................................. 32
1. spark 如何保证宕机迅速恢复? ..................................................................... 32
2. Spark streaming 以及基本工作原理? ...................................................... 32
3. spark 有哪些组件? ....................................................................................... 33
4. spark 工作机制? ........................................................................................... 33
5. Spark 主备切换机制原理知道吗?............................................................... 34
6. spark 的有几种部署模式,每种模式特点? ............................................... 34
7. Spark 为什么比 mapreduce 快? ............................................................... 36
8. 简单说一下 hadoop 和 spark 的 shuffle 相同和差异? ........................... 36
9. spark 工作机制 ............................................................................................... 37
10. spark 的优化怎么做? ........................................................................... 38
11. 数据本地性是在哪个环节确定的? ....................................................... 39
12. RDD 的弹性表现在哪几点? ................................................................. 39
13. RDD 有哪些缺陷? ................................................................................. 39
14. Spark 的 shuffle 过程? ........................................................................ 40
15. Spark 的数据本地性有哪几种? ........................................................... 40
16. Spark 为什么要持久化,一般什么场景下要进行 persist 操作? ..... 40
17. 介绍一下 join 操作优化经验? .............................................................. 41
18. 描述 Yarn 执行一个任务的过程? ........................................................ 42
19. Spark on Yarn 模式有哪些优点? ....................................................... 43
20. 谈谈你对 container 的理解? ............................................................... 44
21. Spark 使用 parquet 文件存储格式能带来哪些好处? ...................... 44
22. 介绍 parition 和 block 有什么关联关系? .......................................... 45
23. Spark 应用程序的执行过程是什么? ................................................... 46
24. 不需要排序的 hash shuffle 是否一定比需要排序的 sort shuffle 速
度快? 47
25. Sort-based shuffle 的缺陷? ................................................................. 47
26. spark.storage.memoryFraction 参数的含义,实际生产中如何调优?
48
Hive ................................................................................................................................ 48
1. Hive 表关联查询,如何解决数据倾斜的问题? ......................................... 48
2. Hive 的 HSQL 转换为 MapReduce 的过程? ........................................... 50
3. Hive 底层与数据库交互原理? ..................................................................... 51
4. Hive 的两张表关联,使用 MapReduce 怎么实现? ................................ 51
5. 请谈一下 Hive 的特点? ................................................................................ 51
6. 请说明 hive 中 Sort By,Order By,Cluster By,Distrbute By 各代表
什么意思? ............................................................................................................. 52
7. 写出 hive 中 split、coalesce 及 collect_list 函数的用法(可举例)? 52
8. Hive 有哪些方式保存元数据,各有哪些特点? ......................................... 53
9. Hive 内部表和外部表的区别? ..................................................................... 53
10. Hive 中的压缩格式 TextFile、SequenceFile、RCfile 、ORCfile 各
有什么区别? ......................................................................................................... 54
11. 所有的 Hive 任务都会有 MapReduce 的执行吗?............................ 55
12. Hive 的函数:UDF、UDAF、UDTF 的区别? ................................... 55
13. 说说对 Hive 桶表的理解? .................................................................... 56
数据查询面试题 ............................................................................................................. 57
HBase ............................................................................................................................. 57
1. HBase 的特点是什么? ................................................................................. 57
2. HBase 适用于怎样的情景? ......................................................................... 57
3. 描述 HBase 的 rowKey 的设计原则? ........................................................ 58
4. 描述 HBase 中 scan 和 get 的功能以及实现的异同? .............................. 60
5. 请详细描述 HBase 中一个 cell 的结构? .................................................... 60
6. 简述 HBase 中 compact 用途是什么,什么时候触发,分为哪两种,有
什么区别,有哪些相关配置参数? .................................................................... 61
7. 每天百亿数据存入 HBase,如何保证数据的存储正确和在规定的时间里
全部录入完毕,不残留数据? ............................................................................ 61
8. 请列举几个 HBase 优化方法? .................................................................... 62
9. Region 如何预建分区? ................................................................................ 65
10. HRegionServer 宕机如何处理? ......................................................... 66
剩余70页未读,继续阅读
资源评论
数据治理圈
- 粉丝: 98
- 资源: 5
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功