没有合适的资源?快使用搜索试试~ 我知道了~
项目介绍10.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 49 浏览量
2023-08-08
15:07:47
上传
评论
收藏 610KB DOCX 举报
温馨提示
试读
43页
大数据项目+项目介绍+面试辅导
资源推荐
资源详情
资源评论
1. 自我介绍
2. 从服务器购买开始规划大数据
3. 数据平台搭建及遇到问题解决方案
4. 数据仓库搭建及遇到的问题解决方案
5. 实时项目搭建及遇到的数据倾斜解决方案
1.自我介绍
各位面试官好,我叫 XXXX,2019 年毕业于 XXXX 学院物联网工程。上一份工作是
大数据发工程师。由于专业的关系,在大学就学习了计算机类的相关专业知识,物联
网本身就是在 5G 时代下追求物物相连、智能化的时代,从中产生的大量数据要如何处
理,由此让我对大数据处理这一方面有了兴趣,真正接触大数据是我们大三有一门课
程叫云计算,主要是介绍 hadoop 生态以及现阶段大数据各类处理的技术和常用手
段。所以课下时间,有对这一方面有一些了解和学习,专业关系,让我觉得大数据在
现阶段社会的发展具有很大的前景,因此想好在大数据这一行业中学习和发展。
基于这个想法,大四期间乃至上一份工作中,我开始在博客和一些网站上找更确
切的大数据领域开发的相关资料,以及在 apache 上下载一些稳定常用的框架,进行针
对性的学习。比如数据传输层一般使用的 flume、kafka,或者数据存储层中的 hdfs、
hbase,还是资源管理层 Yarn、数据计算层的 Hive 数据查询、MapReduce 离线计算、
Sparkstreaming 实时计算,并且可以使用 Azkaban 进行任务调度。
毕业之后,入职上一家公司,公司大数据部门处于起步阶段,部门中氛围比较
好,在去年一年中,从中学习到很多,工作中我主要做的是电商项目,由于起步阶
段,我有幸可以参与到项目其中,包括数据平台的搭建、数仓项目里的离线计算系统
和实时分析系统,都有参与到工作并且负责到其中某些功能、指标。数据平台的搭建
算得上是从无到有,包括服务器的选型、项目的架构、框架和半身选型;数仓的建
模、指标分析、数据质量监控等等。
2.从服务器购买开始规划大数据
2.1 确定集群规模
2.1.1 物理机 & 云主机
选物理机
2.1.2 集群规划
1)用户行为数据:
每日活跃人数:80 万、每人产生数据量:100 条、每天产生条数:
80*100=8000 万条,每条日志数据大小:0.5k-2k 之间,平均每条 1k 左右
-- 大概每天数据大小:大约 80G 左右
数仓层级:
ods 层:采用 lzo 压缩之后 8G 左右
dwd 层:采用 lzo 压缩+parquet 存储后 8G 左右
dws 层:为了快速计算不采用压缩 40G
Ads 层:数据量很小,忽略不计
保存三个副本:56*3=168G 左右
半年不扩容:168*180=30T 左右
预留 30%:30/0.7=45T 左右
2)kafka 中数据:
-- 2 个副本:80*2=160G
-- 保存 3 天:160*3=480G
-- 预留 30%:480/0.7=685G ->700G
3)flume 数据忽略不计
4)业务数据:
-- 每天活跃用户:80 万
-- 每天下单用户:10 万
-- 每人每天产生业务数据:10 条
-- 每条数据 1k 左右:10 万*10 条*1k=1g
-- 数仓四层存储:1g*3=3g
-- 保存三个副本:3*3=9g
-- 半年不扩容:9*180=1.6T
-- 预留 30%:1.6T/0.7=2T
5)集群总规模:
45T+700G+2T=48T 约->50T, 服务器数量=50T/8=7 台
2.1.3 根据数据规模搭建开发环境集群规模
主机 1
主机 2
主机 3
主机 4
主机 5
主机 6
主机 7
Nn
nn
dn
dn
dn
dn
dn
nm
nm
nm
nm
nm
rm
rm
zk
zk
zk
Kafka
Kafka
kafka
Flume
Flume
flume
Hbase
Hbase
Hbase
Hive
hive
Mysql
Mysql
Spark
spark
es
es
Sqoop
Canal
Azkaban
Azkaban
Azkaban
配置说明:
①NN 和 Mysql 配置高可用,取消 2dn。
②zk 和 kf 发在相同节点。客户端的服务尽量安装在相同节点,方便使用,数
量>=1 即可,比如 hive 和 spark 都安装 2 个。Spark 在这里只是提交任务,跑任务时
常使用的是依赖于 yarn。
③ES 与 HBase 分开安装,HBase 比 ES 耗空间。Flume 一般是放在日志服务器的。
2.1.4 离线测试集群集群
服务器名称
自服务
服务器
Hadoop1
服务器
Hadoop2
服务器
Hadoop3
NameNode
√
DataNode
√
√
√
HDFS
HA
√
√
NodeManager
√
√
√
Yarn
Resourcemanager
√
Zookeeper
Zookeeper server
√
√
√
Flume(采集)
Flume
√
√
√
Kafka
Kafka
√
√
√
Flume(消费)
Flume
√
Hive
Hive
√
MySQL
MySQL
√
Sqoop
Sqoop
√
Azkaban WebServer
√
√
Azkaban
AzkabanExecutorServer
√
服务器总计
11
8
7
配置说明:测试环境的资源配置一般是开发环境的一半。测试节点大多都只安装 3
台。
2.2 项目架构和技术选型
2.2.1 项目架构
日志部分:日志服务器,落盘日志,flume,kafka,hdfs,hive,mysql;
业务数据部分:mysql-sqoop-hdfs-hive
(版本再改)
产品
版本
特点
Hadoop
2.7.2
Flume
1.7.0
1. 支持断点续传
2. 官方 HDFS 接口
3. 自带事务,不容易丢数据
Kafka
0.11.0.2
1. 支持多个消费者接口
2. 0.10 后,sparkstreaming 只支持 DirectAPI
Kafka Eagle
1.3.7
Hive
1.2.1
支持大规模的数据计算
Sqoop
1.4.6
采用命令行的方式调用任务
MySQl
5.6.24
Azkaban
2.5.0
1. 兼容任何版本的 hadoop
2. 调度工作流
3. 认证/授权(权限)
4. 成功和失败会发电子邮件、打电话提醒
剩余42页未读,继续阅读
资源评论
AI+Maynor
- 粉丝: 7w+
- 资源: 167
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功