没有合适的资源?快使用搜索试试~ 我知道了~
大数据技术之高频面试题
需积分: 5 1 下载量 196 浏览量
2023-08-06
15:59:10
上传
评论
收藏 24.5MB DOCX 举报
温馨提示
试读
208页
大数据技术之高频面试题
资源推荐
资源详情
资源评论
大数据技术之高频面试题
—————————————————————————————
大数据技术之高频面试题
小强
目录
第 1 章 项目涉及技术....................................................................................................................12
1.1 Linux&Shell 相关总结......................................................................................................12
1.1.1 Linux 常用命令......................................................................................................12
1.1.2 Shell 常用工具 .......................................................................................................12
1.2 Hadoop 相关总结..............................................................................................................12
1.2.1 Hadoop 常用端口号...............................................................................................12
1.2.2 Hadoop 配置文件以及简单的 Hadoop 集群搭建 ................................................12
1.2.3 HDFS 读流程和写流程 .........................................................................................13
1.2.4 MapReduce 的 Shuffle 过程及 Hadoop 优化(包括:压缩、小文件、集群优化)
..........................................................................................................................................14
1.2.5 Yarn 的 Job 提交流程............................................................................................17
1.2.6 Yarn 的默认调度器、调度器分类、以及他们之间的区别................................17
1.2.7 项目经验之 LZO 压缩..........................................................................................18
1.2.8 Hadoop 参数调优...................................................................................................19
1.2.9 项目经验之基准测试............................................................................................19
1.2.10 Hadoop 宕机.........................................................................................................19
1.2.11 Hadoop 解决数据倾斜方法.................................................................................19
1.3 Zookeeper 相关总结 .........................................................................................................20
1.3.1 选举机制................................................................................................................20
1.3.2 常用命令................................................................................................................20
1.4 Flume 相关总结 ................................................................................................................21
1.4.1 Flume 组成,Put 事务,Take 事务......................................................................21
1.4.2 Flume 拦截器 .........................................................................................................21
1.4.3 Flume Channel 选择器...........................................................................................22
1.4.4 Flume 监控器 .........................................................................................................22
1.4.5 Flume 采集数据会丢失吗?(防止数据丢失的机制)........................................22
1.4.6 Flume 内存 .............................................................................................................22
1.4.7 FileChannel 优化....................................................................................................22
1.4.8 HDFS Sink 小文件处理.........................................................................................23
大数据技术之高频面试题
—————————————————————————————
1
1.4.9 HDFS Sink 小文件处理.........................................................................................23
1.5 Kafka 相关总结.................................................................................................................24
1.5.1 Kafka 架构..............................................................................................................24
1.5.2 Kafka 压测..............................................................................................................24
1.5.3 Kafka 的机器数量..................................................................................................24
1.5.4 Kafka 的日志保存时间..........................................................................................24
1.5.5 Kafka 的硬盘大小..................................................................................................24
1.5.6 Kafka 监控..............................................................................................................24
1.5.7 Kakfa 分区数..........................................................................................................25
1.5.8 副本数设定............................................................................................................25
1.5.9 多少个 Topic .........................................................................................................25
1.5.10 Kafka 丢不丢数据................................................................................................25
1.5.11 Kafka 的 ISR 副本同步队列................................................................................25
1.5.12 Kafka 分区分配策略............................................................................................25
1.5.13 Kafka 中数据量计算............................................................................................26
1.5.14 Kafka 挂掉............................................................................................................26
1.5.15 Kafka 消息数据积压,Kafka 消费能力不足怎么处理?.................................26
1.5.16 Kafka 幂等性........................................................................................................26
1.5.17 Kafka 事务............................................................................................................27
1.5.18 Kafka 数据重复....................................................................................................27
1.5.19 Kafka 参数优化....................................................................................................27
1.5.20 Kafka 高效读写数据...........................................................................................28
1.6 Hive 总结...........................................................................................................................30
1.6.1 Hive 的架构............................................................................................................30
1.6.2 Hive 和数据库比较................................................................................................30
1.6.3 内部表和外部表....................................................................................................31
1.6.4 4 个 By 区别...........................................................................................................31
1.6.5 窗口函数................................................................................................................31
1.6.6 自定义 UDF、UDTF ............................................................................................32
1.6.7 Hive 优化................................................................................................................32
1.6.8 Hive 解决数据倾斜方法........................................................................................34
1.6.9 用的是动态分区吗?动态分区的底层原理是什么?........................................37
26. Hive 里边字段的分隔符用的什么?为什么用\t?有遇到过字段里边有\t 的情况
吗,怎么处理的?为什么不用 Hive 默认的分隔符,默认的分隔符是什么?..........37
1.7 HBase 总结........................................................................................................................37
大数据技术之高频面试题
—————————————————————————————
2
1.7.1 HBase 存储结构.....................................................................................................37
1.7.2 RowKey 设计原则 .................................................................................................38
1.7.3 RowKey 如何设计 .................................................................................................38
1.7.4 Phoenix 二级索引(讲原理) ..............................................................................38
1.8 Sqoop 参数 ........................................................................................................................38
1.8.1 Sqoop 导入导出 Null 存储一致性问题 ................................................................38
1.8.2 Sqoop 数据导出一致性问题 .................................................................................38
1.8.3 Sqoop 底层运行的任务是什么 .............................................................................39
1.8.4 Sqoop 数据导出的时候一次执行多长时间 .........................................................39
1.8.5 Sqoop 一天导多少数据 .........................................................................................39
1.8.6 Sqoop 在导入数据的时候数据倾斜 .....................................................................39
1.9 Scala...................................................................................................................................39
1.9.1 开发环境................................................................................................................39
1.9.2 变量和数据类型....................................................................................................40
1.9.3 流程控制................................................................................................................40
1.9.4 函数式编程............................................................................................................40
1.9.5 面向对象................................................................................................................40
1.9.6 集合........................................................................................................................40
1.9.7 模式匹配................................................................................................................40
1.9.8 异常........................................................................................................................40
1.9.9 隐式转换................................................................................................................40
1.9.10 泛型......................................................................................................................40
1.10 Spark ................................................................................................................................40
1.10.1 Spark 有几种部署方式?请分别简要论述 ........................................................40
1.10.2 Spark 任务使用什么进行提交,JavaEE 界面还是脚本 ...................................41
1.10.3 Spark 提交作业参数(重点) ............................................................................41
1.10.4 简述 Spark 的架构与作业提交流程(画图讲解,注明各个部分的作用)(重
点)..................................................................................................................................42
1.10.5 如何理解 Spark 中的血统概念(RDD)(笔试重点)..................................42
1.10.6 简述 Spark 的宽窄依赖,以及 Spark 如何划分 stage,每个 stage 又根据什么
决定 task 个数? (笔试重点) .....................................................................................43
1.10.7 请列举 Spark 的 transformation 算子(不少于 8 个),并简述功能(重点)43
1.10.8 请列举 Spark 的 action 算子(不少于 6 个),并简述功能(重点) ..........44
1.10.9 请列举会引起 Shuffle 过程的 Spark 算子,并简述功能。 ............................44
1.10.10 简述 Spark 的两种核心 Shuffle(HashShuffle 与 SortShuffle)的工作流程
大数据技术之高频面试题
—————————————————————————————
3
(包括未优化的 HashShuffle、优化的 HashShuffle、普通的 SortShuffle 与 bypass
的 SortShuffle)(重点) ..............................................................................................44
1.10.11 Spark 常用算子 reduceByKey 与 groupByKey 的区别,哪一种更具优势?(重
点)..................................................................................................................................46
1.10.12 Repartition 和 Coalesce 关系与区别 .................................................................47
1.10.13 分别简述 Spark 中的缓存机制(cache 和 persist)与 checkpoint 机制,并指
出两者的区别与联系......................................................................................................47
1.10.14 简述 Spark 中共享变量(广播变量和累加器)的基本原理与用途。(重点)
..........................................................................................................................................47
1.10.15 当 Spark 涉及到数据库的操作时,如何减少 Spark 运行中的数据库连接数?
..........................................................................................................................................48
1.10.16 如何使用 Spark 实现 TopN 的获取(描述思路或使用伪代码)(重点).48
1.10.17 京东:调优之前与调优之后性能的详细对比(例如调整 map 个数,map 个
数之前多少、之后多少,有什么提升)......................................................................48
1.11 Spark Sql、DataFrames、DataSet..................................................................................49
1.11.1 简述 SparkSQL 中 RDD、DataFrame、DataSet 三者的区别与联系? (笔试重
点)..................................................................................................................................49
1.11.2 append 和 overwrite 的区别.................................................................................50
1.11.3 coalesce 和 repartition 的区别 .............................................................................50
1.11.4 cache 缓存级别 ....................................................................................................50
1.11.5 释放缓存和缓存..................................................................................................50
1.11.6 Spark Shuffle 默认并行度 ...................................................................................50
1.11.7 kryo 序列化 ..........................................................................................................50
1.11.8 创建临时表和全局临时表..................................................................................51
1.11.9 BroadCast join 广播 join .....................................................................................51
1.11.10 控制 Spark reduce 缓存 调优 shuffle ..............................................................51
1.11.11 注册 UDF 函数..................................................................................................51
1.11.12 SparkSQL 中 join 操作与 left join 操作的区别?............................................51
1.12 Spark Streaming...............................................................................................................52
1.12.1 Spark Streaming 第一次运行不丢失数据...........................................................52
1.12.2 Spark Streaming 精准一次消费...........................................................................52
1.12.3 Spark Streaming 控制每秒消费数据的速度.......................................................52
1.12.4 Spark Streaming 背压机制...................................................................................52
1.12.5 Spark Streaming 一个 stage 耗时........................................................................52
1.12.6 Spark Streaming 优雅关闭..................................................................................52
大数据技术之高频面试题
—————————————————————————————
4
1.12.7 Spark Streaming 默认分区个数..........................................................................52
1.12.8 SparkStreaming 有哪几种方式消费 Kafka 中的数据,它们之间的区别是什么?
..........................................................................................................................................52
1.12.9 简述 SparkStreaming 窗口函数的原理(重点)..............................................54
1.13 数据倾斜.........................................................................................................................54
1.13.1 数据倾斜表现......................................................................................................54
1.13.2 数据倾斜产生原因..............................................................................................55
1.13.3 解决数据倾斜思路..............................................................................................56
1.13.4 定位导致数据倾斜代码......................................................................................57
1.13.5 查看导致数据倾斜的 key 分布情况..................................................................59
1.13.6 Spark 数据倾斜的解决方案 ...............................................................................60
1.13.7 Spark 数据倾斜处理小结 ....................................................................................78
1.14 Flink 基础 ........................................................................................................................78
1.14.1 简单介绍一下 Flink ...........................................................................................78
1.14.2 Flink 相比传统的 Spark Streaming 区别?...........................................................79
1.14.3 Flink 的组件栈有哪些? .....................................................................................79
1.14.4 Flink 的运行必须依赖 Hadoop 组件吗? ........................................................80
1.14.5 你们的 Flink 集群规模多大? ...........................................................................80
1.14.6 Flink 的基础编程模型了解吗? .........................................................................81
1.14.7 Flink 集群有哪些角色?各自有什么作用? .....................................................82
1.14.8 说说 Flink 资源管理中 Task Slot 的概念......................................................83
1.14.9 说说 Flink 的常用算子? .................................................................................83
1.14.10 说说你知道的 Flink 分区策略? .....................................................................83
1.14.11 Flink 的并行度了解吗?Flink 的并行度设置是怎样的?..............................84
1.14.12 Flink 的 Slot 和 parallelism 有什么区别?.......................................................85
1.14.13 Flink 有没有重启策略?说说有哪几种? .......................................................85
1.14.14 用过 Flink 中的分布式缓存吗?如何使用? .................................................85
1.14.15 说说 Flink 中的广播变量,使用时需要注意什么? .....................................86
1.14.16 说说 Flink 中的窗口? .....................................................................................86
1.14.17 说说 Flink 中的状态存储? .............................................................................87
1.14.18 Flink 中的时间有哪几类 ...................................................................................88
1.14.19 Flink 中水印是什么概念,起到什么作用? ..................................................88
1.14.20 Flink Table & SQL 熟悉吗?TableEnvironment 这个类有什么作用 ............88
1.14.20 Flink SQL 的实现原理是什么?是如何实现 SQL 解析的呢?...................88
1.15 Flink 中级 ........................................................................................................................90
剩余207页未读,继续阅读
资源评论
小强签名设计
- 粉丝: 445
- 资源: 27
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功