数据采集面试题 ............................................................................................................................ 6
Flume ..................................................................................................................................... 7
1. Flume 使用场景 .................................................................................................... 7
2. Flume 丢包问题 .................................................................................................... 7
3. Flume 与 Kafka 的选取 ....................................................................................... 7
4. 数据怎么采集到 Kafka,实现方式 .................................................................... 9
5. flume 管道内存,flume 宕机了数据丢失怎么解决 ......................................... 9
6. flume 配置方式,flume 集群(详细讲解下) ................................................. 9
7. flume 不采集 Nginx 日志,通过 Logger4j 采集日志,优缺点是什么? 10
8. flume 和 kafka 采集日志区别,采集日志时中间停了,怎么记录之前的日
志? ............................................................................................................................. 10
9. flume 有哪些组件,flume 的 source、channel、sink 具体是做什么的 10
数据存储面试题 ......................................................................................................................... 12
HDFS ................................................................................................................................... 12
1. 请说下 HDFS 读写流程 .................................................................................... 12
2. HDFS 在读取文件的时候,如果其中一个块突然损坏了怎么办 .................. 14
3. HDFS 在上传文件的时候,如果其中一个 DataNode 突然挂掉了怎么办 .. 14
4. 请说下 HDFS 的组织架构 ................................................................................... 15
Kafka ................................................................................................................................... 16
5. 为什么要使用 kafka? ........................................................................................ 16
6. Kafka 消费过的消息如何再消费? ................................................................... 17
7. kafka 的数据是放在磁盘上还是内存上,为什么速度会快? ...................... 17