大数据知识汇总+面试题收集.pdf

需积分: 9 0 下载量 69 浏览量 2022-10-21 10:10:02 上传评论收藏 77.72MB PDF 举报

温馨提示

试读

897页

大数据知识汇总+面试题收集.pdf

资源推荐

资源详情

资源评论

大数据知识汇总+面试题收集（包含20个常用的组件和机器学习常用算法）
目录导航
一、大数据基础
(一)、Linux7.6与Shell脚本编程
计算机硬件软件体系
1 冯诺依曼体系结构
2 计算机硬件组成
3 硬盘的分类
4 顺序读写与随机读写
5 网络连接概念
6  网络连接模式
7 软件分类
8 Linux分支
9 Linux下载
虚拟机安装与配置
1 虚拟化技术
3 配置常见参数
3.1 网络
3.2 防火墙
3.3 软件安装限制
3.4 关机与重启相关命令
4 快照与克隆
4.1 修改主机名
5 连接Linux服务器
Linux的命令
1 常用的命令
2 命令学习法
3 特殊字符
Linux的文件系统
1 万事万物皆文件
2 Linux的文件目录
3 Linux的文件操作常用命令
4 读取文件信息
5 VI和VIM编辑器的使用
5.1 打开文件
5.2 三种模式
5.3 三种模式切换
5.4 编辑模式
5.5 输入模式
5.6 末行模式
计算机间的数据传输
1 Window--Linux
2 Linux--Linux
文件大小
文件压缩
1 解压tar命令
2 解压zip和unzip命令
Linux的网络信息
1 主机名称
2 DNS解析
3 网络相关命令
4 加密算法

4.1 不可逆加密算法
4.2 对称加密算法
4.3 非对称加密算法
5 主机间的相互免秘钥
6 主机名与Host校验
日期与时间
1 时间命令
2 日期时间自动同步
3 命令执行时间统计
用户-组-权限
1 用户
2 组
3 权限
4 权限赋予
管道过滤与重定向
1 管道
2 重定向
Linux的系统进程
1 进程信息
2 后台进程
3 杀死进程
Linux的软件安装
1 环境变量
2 软件的安装方式
3 RPM安装
4 压缩包解压安装
5 YUM安装
5.1 yum的作用
5.2 yum命令
5.3 更换yum源
Linux的三剑客
1 普通剑客
2 剑客1号：grep
3 剑客2号：sed
4 剑客3号：awk
（二）、Linux的Shell编程
名词解释
执行Shell脚本的方式
shell语法基础（详情见word文档）
Linux的启动流程
1 系统启动流程
2 系统服务
3 开机自启动服务
4 定时任务
虚拟机初始化脚本
虚拟机相互免秘钥
(三)、Nginx服务器
Nginx简介
使用场景
1. 高并发场景
2 正向代理
3 反向代理
Nginx源码安装
1 解编安装与启动
2 常用命令
3 安装目录
4 配置文件
Nginx的负载均衡

1 集群搭建
2 负载策略
2.1 请求轮询
2.2 增加权重
2.3 最少连接数
2.4 IpHash
资源静态化
1 图床
2 配置静态资源
3 路径路由规则
(四) 、Zookeeper 3.4.5
数据存储历史背景
磁盘阵列
1  Raid简介
2 条带化
3 Raid0
4 Raid1
5 Raid2
6 Raid3
7 Raid4
8 Raid5
9 Raid6
CAP原则 📓重要
1 定义
2 概念
3 推导
4 结论
数据的一致性 📓重要
1 定义
2 模型
3 最终一致性
4 Paxos算法📓重要
4.1 简介
4.2 算法描述
4.3 Paxos推断
4.4 算法模型延伸
Raft算法📓重要
1 简介
2 问题
3 角色分配
4 算法流程
Zookeeper
1 角色分配
Zookeeper存储模型📓
1 存储结构
2 节点的分类
3 ZKServer的命令
ZKServer的监听机制🕐
ACL权限控制（了解）
四字命令（了解）
1 安装nc
2 四字命令
二、Hadoop生态
导学
如何理解Hadoop生态？Hadoop、HDFS、Hive、Hbase之间的关系
Hive与HBase的区别与联系
区别
联系

(一) 基础算法&大数据思维
算法复杂度
1 空间复杂度
2 时间复杂度
3 时间与空间的取舍
4 十大排序算法
大数据思维
查重
排序
（二）Hadoop生态--HDFS文件存储系统
Hadoop 3.1.2（一）
doop的历史
1 Hadoop进化史
2 Hadoop官网
3 Hadoop Model
分布式文件系统架构
文件切分思想
Block拆分标准
Block数据安全
Block的管理效率
HDFS的特点
Hadoop 3.1.2（二）文件的数据类型
NameNode(NN)
1 功能
2 性能
DataNode(DN)
1 功能
SecondaryNameNode
1 传统解决方案(log+fsfsimage)
2 SNN解决方案
3 SNN数据恢复
安全模式
HDFS的权限
机架感知策略
1 节点距离
2 机架感知
HDFS写数据流程
1 宏观流程
2 微观流程
HDFS读数据流程
Hadoop 3.1.2（三）高可用与联邦机制
Hadoop1的困境
Hadoop-HA
Hadoop-HA设计思想
1 ANN
2 SNN
3 DataNode(DN)
4 QJM
5 ZKFC
6 Zookeeper
7 脑裂brain-split
Hadoop-Federation
1 单NN局限性
2  Federation
Hadoop 3.1.2（四）3.X 的新特性
Erasure Encoding
NameNode
服务器端口

4. DataNode
5. 蚊子腿
（三）  MapReduce
扑克牌问题
1. MapReduce设计理念
2. MapReduce架构
2.1 MapReduce1.x
2.2 MapReduce2.x
3. MR的计算流程
3.1 原始数据File
3.2 数据块Block
3.3 切片Split
3.4 MapTask
4. 环形数据缓冲区
5. 分区Partation
6. 排序Sort
7. 溢写Spill
8. 合并Merge
9. 组合器combiner
10. 拉取Fetch
11. 合并Merge
12. 归并Reduce
13. 写出Output
14. MapReduce过程截图
（四）、MapReduce案例
1. WordCount项目😂
直接上代码了 😂 Java实现
Resources文件夹下放的配置文件
Linux上运行
2. 天气信息 ⛅ 
统计各地区每天的最高温和最低温
统计各地区每月的前三高温度
代码实现
定义Weather类
定义WeatherGroupingComparator分组比较器
定义分区
定义Job类
定义Mapper类
定义Reducer类
3. 好友推荐系统 🐶
好友推荐的代码实现
分析：
定义一个Friend类
使用reservoir Sampling蓄水池算法随机生成好友
定义FriendJob任务类
定义一个FriendMap类
定义一个FriendReducer类
4. PageRank 👑
基本概念
方法的原理
算法过程
阻尼系数
算法缺点
数据列举
执行流程分析：
分析
1. 算法过程分析
2. 逻辑分析