没有合适的资源?快使用搜索试试~ 我知道了~
大数据知识汇总+面试题收集.pdf
需积分: 9 0 下载量 69 浏览量
2022-10-21
10:10:02
上传
评论
收藏 77.72MB PDF 举报
温馨提示
试读
897页
大数据知识汇总+面试题收集.pdf
资源推荐
资源详情
资源评论
大数据知识汇总+面试题收集(包含20个常用的组件和机器学习常用算法)
目录导航
一、大数据基础
(一)、Linux7.6与Shell脚本编程
1. 计算机硬件软件体系
1.1 冯诺依曼体系结构
1.2 计算机硬件组成
1.3 硬盘的分类
1.4 顺序读写与随机读写
1.5 网络连接概念
1.6 网络连接模式
1.7 软件分类
1.8 Linux分支
1.9 Linux下载
2. 虚拟机安装与配置
2.1 虚拟化技术
2.3 配置常见参数
2.3.1 网络
2.3.2 防火墙
2.3.3 软件安装限制
2.3.4 关机与重启相关命令
2.4 快照与克隆
2.4.1 修改主机名
2.5 连接Linux服务器
3. Linux的命令
3.1 常用的命令
3.2 命令学习法
3.3 特殊字符
4. Linux的文件系统
4.1 万事万物皆文件
4.2 Linux的文件目录
4.3 Linux的文件操作常用命令
4.4 读取文件信息
4.5 VI和VIM编辑器的使用
4.5.1 打开文件
4.5.2 三种模式
4.5.3 三种模式切换
4.5.4 编辑模式
4.5.5 输入模式
4.5.6 末行模式
5. 计算机间的数据传输
5.1 Window--Linux
5.2 Linux--Linux
6. 文件大小
7. 文件压缩
7.1 解压tar命令
7.2 解压zip和unzip命令
8. Linux的网络信息
8.1 主机名称
8.2 DNS解析
8.3 网络相关命令
8.4 加密算法
8.4.1 不可逆加密算法
8.4.2 对称加密算法
8.4.3 非对称加密算法
8.5 主机间的相互免秘钥
8.6 主机名与Host校验
9. 日期与时间
9.1 时间命令
9.2 日期时间自动同步
9. 3 命令执行时间统计
10. 用户-组-权限
10.1 用户
10.2 组
10.3 权限
10.4 权限赋予
11. 管道过滤与重定向
11.1 管道
11.2 重定向
12. Linux的系统进程
12.1 进程信息
12.2 后台进程
12.3 杀死进程
13. Linux的软件安装
13.1 环境变量
13.2 软件的安装方式
13.3 RPM安装
13.4 压缩包解压安装
13.5 YUM安装
13.5.1 yum的作用
13.5.2 yum命令
13.5.3 更换yum源
14. Linux的三剑客
14.1 普通剑客
14.2 剑客1号:grep
14.3 剑客2号:sed
14.4 剑客3号:awk
(二)、Linux的Shell编程
1. 名词解释
2. 执行Shell脚本的方式
3 shell语法基础(详情见word文档)
4. Linux的启动流程
4.1 系统启动流程
4.2 系统服务
4.3 开机自启动服务
4.4 定时任务
5. 虚拟机初始化脚本
6. 虚拟机相互免秘钥
(三)、Nginx服务器
1. Nginx简介
2. 使用场景
2.1. 高并发场景
2.2 正向代理
2.3 反向代理
3. Nginx源码安装
3.1 解编安装与启动
3.2 常用命令
3.3 安装目录
3.4 配置文件
4. Nginx的负载均衡
4.1 集群搭建
4.2 负载策略
4.2.1 请求轮询
4.2.2 增加权重
4.2.3 最少连接数
4.2.4 IpHash
5.资源静态化
5.1 图床
5.2 配置静态资源
5.3 路径路由规则
(四) 、Zookeeper 3.4.5
1. 数据存储历史背景
2. 磁盘阵列
2.1 Raid简介
2.2 条带化
2.3 Raid0
2.4 Raid1
2.5 Raid2
2.6 Raid3
2.7 Raid4
2.8 Raid5
2.9 Raid6
3. CAP原则 📓重要
3.1 定义
3.2 概念
3.3 推导
3.4 结论
4. 数据的一致性 📓重要
4.1 定义
4.2 模型
4.3 最终一致性
4.4 Paxos算法📓重要
4.4.1 简介
4.4.2 算法描述
4.4.3 Paxos推断
4.4.4 算法模型延伸
5. Raft算法📓重要
5.1 简介
5.2 问题
5.3 角色分配
5.4 算法流程
6. Zookeeper
6.1 角色分配
7. Zookeeper存储模型📓
7.1 存储结构
7.2 节点的分类
7.3 ZKServer的命令
8. ZKServer的监听机制🕐
9. ACL权限控制(了解)
10. 四字命令(了解)
10.1 安装nc
10.2 四字命令
二、Hadoop生态
导学
如何理解Hadoop生态?Hadoop、HDFS、Hive、Hbase之间的关系
Hive与HBase的区别与联系
区别
联系
(一) 基础算法&大数据思维
1. 算法复杂度
1.1 空间复杂度
1.2 时间复杂度
1.3 时间与空间的取舍
1.4 十大排序算法
大数据思维
1. 查重
2. 排序
(二)Hadoop生态--HDFS文件存储系统
Hadoop 3.1.2(一)
1. doop的历史
1.1 Hadoop进化史
1.2 Hadoop官网
1.3 Hadoop Model
2. 分布式文件系统架构
3. 文件切分思想
4.Block拆分标准
5. Block数据安全
6. Block的管理效率
7. HDFS的特点
Hadoop 3.1.2(二)文件的数据类型
1. NameNode(NN)
1.1 功能
1.2 性能
2. DataNode(DN)
2.1 功能
3. SecondaryNameNode
3.1 传统解决方案(log+fsfsimage)
3.2 SNN解决方案
3.3 SNN数据恢复
4. 安全模式
4. HDFS的权限
5. 机架感知策略
5.1 节点距离
5.2 机架感知
6. HDFS写数据流程
6.1 宏观流程
6.2 微观流程
7. HDFS读数据流程
Hadoop 3.1.2(三)高可用与联邦机制
1. Hadoop1的困境
2. Hadoop-HA
3. Hadoop-HA设计思想
3.1 ANN
3.2 SNN
3.3 DataNode(DN)
3.4 QJM
3.5 ZKFC
3.6 Zookeeper
3.7 脑裂brain-split
4. Hadoop-Federation
4.1 单NN局限性
4.2 Federation
Hadoop 3.1.2(四)3.X 的新特性
1. Erasure Encoding
2. NameNode
3. 服务器端口
4. DataNode
5. 蚊子腿
(三) MapReduce
扑克牌问题
1. MapReduce设计理念
2. MapReduce架构
2.1 MapReduce1.x
2.2 MapReduce2.x
3. MR的计算流程
3.1 原始数据File
3.2 数据块Block
3.3 切片Split
3.4 MapTask
4. 环形数据缓冲区
5. 分区Partation
6. 排序Sort
7. 溢写Spill
8. 合并Merge
9. 组合器combiner
10. 拉取Fetch
11. 合并Merge
12. 归并Reduce
13. 写出Output
14. MapReduce过程截图
(四)、MapReduce案例
1. WordCount项目😂
直接上代码了 😂 Java实现
Resources文件夹下放的配置文件
Linux上运行
2. 天气信息 ⛅
统计各地区每天的最高温和最低温
统计各地区每月的前三高温度
代码实现
定义Weather类
定义WeatherGroupingComparator分组比较器
定义分区
定义Job类
定义Mapper类
定义Reducer类
3. 好友推荐系统 🐶
好友推荐的代码实现
分析:
定义一个Friend类
使用reservoir Sampling蓄水池算法随机生成好友
定义FriendJob任务类
定义一个FriendMap类
定义一个FriendReducer类
4. PageRank 👑
基本概念
方法的原理
算法过程
阻尼系数
算法缺点
数据列举
执行流程分析:
分析
1. 算法过程分析
2. 逻辑分析
剩余896页未读,继续阅读
资源评论
qq_28457853
- 粉丝: 0
- 资源: 2
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功