大数据技术之高频面试题
—————————————————————————————
1
1.5.12 自动创建主题 ...................................................................................................... 27
1.5.13 副本数设定 .......................................................................................................... 27
1.5.14 Kakfa 分区数 ........................................................................................................ 27
1.5.15 Kafka 增加分区 .................................................................................................... 28
1.5.16 Kafka 中多少个 Topic ..........................................................................................28
1.5.17 Kafka 消费者是拉取数据还是推送数据 ............................................................28
1.5.18 Kafka 消费端分区分配策略 ................................................................................28
1.5.19 消费者再平衡的条件 ..........................................................................................29
1.5.20 指定 Offset 消费..................................................................................................30
1.5.21 指定时间消费 ...................................................................................................... 30
1.5.22 Kafka 监控 ............................................................................................................ 30
1.5.23 Kafka 数据积压 .................................................................................................... 30
1.5.24 如何提升吞吐量 ..................................................................................................31
1.5.25 Kafka 中数据量计算 ............................................................................................ 32
1.5.26 Kafka 如何压测? ................................................................................................ 32
1.5.27 磁盘选择 .............................................................................................................. 33
1.5.28 内存选择 .............................................................................................................. 33
1.5.29 CPU 选择 .............................................................................................................. 34
1.5.30 网络选择 .............................................................................................................. 34
1.5.31 Kafka 挂掉 ............................................................................................................ 34
1.5.32 Kafka 的机器数量 ................................................................................................ 35
1.5.33 服役新节点退役旧节点 ......................................................................................35
1.5.34 Kafka 单条日志传输大小 ....................................................................................35
1.5.35 Kafka 参数优化 .................................................................................................... 35
1.6 Hive .....................................................................................................................................36
1.6.1 Hive 的架构 ............................................................................................................ 36
1.6.2 HQL 转换为 MR 流程 ........................................................................................... 37
1.6.3 Hive 和数据库比较 ................................................................................................ 38
1.6.4 内部表和外部表 ....................................................................................................38
1.6.5 系统函数 ................................................................................................................ 38
1.6.6 自定义 UDF、UDTF 函数 ................................................................................... 39
1.6.7 窗口函数 ................................................................................................................ 39
1.6.8 Hive 优化 ................................................................................................................ 41
1.6.9 Hive 解决数据倾斜方法 ........................................................................................ 46
1.6.10 Hive 的数据中含有字段的分隔符怎么处理? ..................................................50
1.6.11 MySQL 元数据备份 .............................................................................................50
1.6.12 如何创建二级分区表? ......................................................................................51
1.6.13 Union 与 Union all 区别 .......................................................................................51
1.7 Datax ...................................................................................................................................51
1.7.1 DataX 与 Sqoop 区别 ............................................................................................. 51
1.7.2 速度控制 ................................................................................................................ 51
1.7.3 内存调整 ................................................................................................................ 52
1.7.4 空值处理 ................................................................................................................ 52
1.7.5 配置文件生成脚本 ................................................................................................53