没有合适的资源?快使用搜索试试~ 我知道了~
高频面试题8.0.9.docx
需积分: 9 5 下载量 76 浏览量
2021-05-23
14:02:33
上传
评论
收藏 18.05MB DOCX 举报
温馨提示
试读
64页
大数据高频面试题
资源详情
资源评论
资源推荐
—————————————————————————————
大数据技术之高频面试题
作者:大数据研发部
版本:
大数据研发部
目录
第 章 项目涉及技术
常用高级命令
常用工具及写过的脚本
中提交了一个脚本,进程号已经不知道了,但是需要 掉这个进程,
怎么操作
中单引号和双引号区别
常用端口号
配置文件以及简单的 集群搭建
读流程和写流程
小文件处理
及优化
!"# 工作机制$
$"# 调度器$
项目经验之基准测试
% 宕机
解决数据倾斜方法%
&#%
选举机制%
常用命令
'( 算法(扩展)
讲一讲什么是 )*' 法则?&# 符合了这个法则的哪两个?(扩展)
+
+ 组成,', 事务,- 事务
—————————————————————————————
+ 拦截器
+) 选择器
+ 监控器
+ 采集数据会丢失吗(防止数据丢失的机制)
.
. 架构
. 的机器数量
副本数设定
. 压测
. 日志保存时间
!. 中数据量计算
$. 的硬盘大小
. 监控
%. 分区数
多少个 -/
. 的 01 副本同步队列
. 分区分配策略
. 挂掉!
. 丢不丢数据!
. 数据重复!
!. 消息数据积压,. 消费能力不足怎么处理?!
$. 参数优化$
. 高效读写数据$
%. 单条日志传输大小$
. 过期数据清理
. 可以按照时间消费数据
. 消费者角度考虑是拉取数据还是推送数据
. 中的数据是有序的吗
!2%
!2 的架构%
!2 和数据库比较
!内部表和外部表
! 个 34 区别
!系统函数
!!自定义 5、5- 函数
!$窗口函数
—————————————————————————————
!2 优化
!%2 解决数据倾斜方法
!2 里边字段的分隔符用的什么?为什么用6,?有遇到过字段里边有6, 的情
况吗,怎么处理的?!
!-7 引擎优点?$
!849 元数据备份
!5 与 5 区别%
$:%
$: 参数%
$: 导入导出 ; 存储一致性问题%
$: 数据导出一致性问题%
$: 底层运行的任务是什么
$: 一天导入多少数据
$!: 数据导出的时候一次执行多长时间
$$: 在导入数据的时候数据倾斜
$: 数据导出 '#:,(项目中遇到的问题)
*7<
每天集群运行多少指标
任务挂了怎么办?
%3(
%3( 存储结构
%1=.4 设计原则
%1=.4 如何设计
%' 二级索引(讲原理)
/
开发环境
变量和数据类型
流程控制
函数式编程
面向对象
!集合
$模式匹配
异常
%隐式转换
泛型
#)#9
—————————————————————————————
# 解决什么问题
# 为什么会有自己的资源调度器
# 运行模式
# 常用端口号
简述 # 的架构与作业提交流程(画图讲解,注明各个部分的作用)(重
点)
!# 任务使用什么进行提交,>2?? 界面还是脚本
$# 提交作业参数(重点)
1 五大属性
%# 的 ,#( #+, 算子(不少于 个)(重点)!
# 的 /, 算子(不少于 ! 个)(重点)$
+ 和 +'#,,( 区别$
1#,, 和 )(/ 区别$
#/34.4 与 @#34.4 的区别$
#/34.4、 34.4、@@#@,34.4、/+<34.4 区别
.#4 序列化
!# 中的血缘(笔试重点)
$# 任务的划分
// 缓存级别%
%释放缓存和缓存%
缓存和检查点区别%
# 分区%
# 累加器
# 广播变量
#9 中 1、,#+、,, 三者的转换 (笔试重点)
%请列举会引起 过程的 # 算子,并简述功能。
当 # 涉及到数据库的操作时,如何减少 # 运行中的数据库连接数?
!如何使用 # 实现 -; 的获取(描述思路或使用伪代码)(重点)
$京东:调优之前与调优之后性能的详细对比(例如调整 + 个数,+ 个
数之前多少、之后多少,有什么提升)
# 默认并行度
$控制 ##/ 缓存 调优 (
# 内核源码(重点)
#,#+@!
#,#+@ 第一次运行不丢失数据!
—————————————————————————————
#,#+@ 精准一次消费!
#,#+@ 控制每秒消费数据的速度$
#,#+@ 背压机制$
#,#+@一个 (,@ 耗时$
!#,#+@优雅关闭$
$#,#+@默认分区个数$
#,#+@ 有哪几种方式消费 . 中的数据,它们之间的区别是什么?
$
%简述 #,#+@ 窗口函数的原理(重点)%
数据倾斜%
数据倾斜表现%
数据倾斜产生原因!
解决数据倾斜思路!
定位导致数据倾斜代码!
查看导致数据倾斜的 4 分布情况!
!#数据倾斜的解决方案!
$# 数据倾斜处理小结
简单介绍一下
跟 #,#+@ 的区别
集群有哪些角色?各自有什么作用?
公司怎么提交的实时任务,有多少 ><8@#?
的并行度了解吗? 的并行度设置是怎样的?!
! 的 )/,存在哪里!
$ 的三种时间语义!
说说 中的窗口!
%?/,4AB/ 的保证$
说一下 状态机制
中的 C,#+# 机制
分布式快照的原理是什么
介绍一下 的 )?' 机制%
)?'编程中当状态没有到达的时候会将数据保存在哪里?%
第 章 项目架构%
提高自信%
数仓概念%
系统数据流程设计%
剩余63页未读,继续阅读
zfq-0314
- 粉丝: 2
- 资源: 2
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0