没有合适的资源?快使用搜索试试~ 我知道了~
大数据项目之在线教育数仓(1用户行为采集平台)V1.0
需积分: 0 2 下载量 170 浏览量
2023-07-12
22:01:25
上传
评论
收藏 3.21MB PDF 举报
温馨提示
试读
47页
大数据项目之在线教育数仓(1用户行为采集平台)V1.0
资源推荐
资源详情
资源评论
大数据项目之在线教育数仓(用户行为采集平台)
—————————————————————————————
大数据技术之在线教育数仓
(用户行为采集平台)
第 1 章 数据仓库概念
数据仓库( Data Warehouse ),是为企业制定决策,提供数据支持的。可以帮助企业
改进业务流程、提高产品质量等。
数据仓库的输入数据通常包括:业务数据、用户行为数据和爬虫数据等
业务数据:就是各行业在处理事务过程中产生的数据。比如用户在网站中登录、下单、
支付等过程中,需要和网站后台数据库进行增删改查交互,产生的数据就是业务数据。业务
数据通常存储在 MySQL、Oracle 等数据库中。
用户行为数据:用户在使用产品过程中,通过埋点收集与客户端产品交互过程中产生的
数据,并发往日志服务器进行保存。比如页面浏览、点击、停留、评论、点赞、收藏等。用
户行为数据通常存储在日志文件中。
大数据项目之在线教育数仓(用户行为采集平台)
—————————————————————————————
爬虫数据:通常是通过技术手段获取其他公司网站的数据。不建议同学们这样去做。
第 2 章 项目需求及架构设计
2.1
项目需求分析
1)采集平台
(1)用户行为数据采集平台搭建
大数据项目之在线教育数仓(用户行为采集平台)
—————————————————————————————
(2)业务数据采集平台搭建
2)离线需求
在线教育离线指标
体系.xlsx
3)实时需求
在线教育实时指标
体系.xlsx
大数据项目之在线教育数仓(用户行为采集平台)
—————————————————————————————
2.2
项目框架
2.2.1
技术选型
技术选型
数据采集传输:Flume,Kafka ,DataX ,Maxwell,Sqoop ,Logstash
数据存储:MySQL,HDFS,HBase,Redis,MongoDB
数据计算:Hive, Spark, Tez,Flink,Storm
数据查询:Presto,Kylin ,Impala,Druid,ClickHouse,Doris
数据可视化:Superset,Echarts,QuickBI,DataV
任务调度: DolphinScheduler,Azkaban,Oozie,Airflow
集群监控:Zabbix,Prometheus
元数据管理:Atlas
权限管理:Ranger,Sentry
技术选型主要考虑因素:数据量大小、业务需求、行业内经验、技术成熟度、开发
维护成本、总成本预算
2.2.2
系统数据流程设计
1、Kylin优势?
1、项目需求;2、集群规模;3、服务器选型;4、框架版本
选型;5、技术选型
1、Nginx:负载均衡;
1、日志保存多久?30天。2、有什么作用?
二、详解数仓面试题——新版离线数仓项目
业务数据
MySQL
Nginx
业务服务器
(Springboot)
业务服务器
(Springboot)
Web/
App
业务
交互
集群存储
Hadoop
日志消费
Flume
结果数据
MySQL
可视化
Superset
即席查询
Presto
多维分析
Kylin
元数据管理
Atlas
质量管理
python+shell
监控
Zabbix & Grafana
定时调度
DolphinScheduler
分布式协调
Zookeeper
权限管理
Ranger
Web/
App
前端
埋点
用户
行为
数据
日志服务器
(Springboot)
Nginx
日志服务器
(Springboot)
日志文件
logFile
日志文件
logFile
采集日志
Flume
采集日志
Flume
消息缓存
Kafka
消息缓存
Kafka
消息缓存
Kafka
数据应用层
ADS层
汇总数据层
DWS层
明细数据层
DWD层
原始数据层
ODS层
数仓近100张表
100多个指标(拆单等复杂业务)
Hive On Spark
1、即席查询用的什么框架?
2、presto有什么优势
1、Flume组成,Put事务,Take事务
2、Flume三个器
3、Flume优化
1、Kafka基本信息;2、Kafka挂了;3、Kafka丢了
4、Kafka重复;5、Kafka积压;6、有序、乱序
7、Kafka高效读写、 8、Kafka优化;9、单条日志
1、Zookeeper部署多少台
2、Zookeeper选举机制、Paxos算法
1、HDFS小文件;
Har归档、CombineTextInputformat、JVM重用
1、DataX遇到哪些问题?空值
2、DataX每天导入的数据量、执行时间
存储
Hbase
DataX导出注意事项
1.源路径不能有空文件
每天同步
DataX
1、Superset有什么优势?
1、DolphinScheduler每天执行多少指标;
2、挂了怎么办?
1、Atals框架原理;2、Atlas版本问题;3、能解决什么
问题(表、字段)
1、Ranger版本;2、解决什么问题(表、字段)3、
支持的框架
1、数据质量规范:留转G复活的涨幅/降幅、重复数据、
空值、最大值、最小值等
1、集群监控
1、测试服务器多少台;2、测试环境什么样;3、测试数据哪
里来;4、如保证写的SQL正确;5、测试之后如何上线
1、实现一个需求需要多长时间;2、项目三年内迭代
多少次;3、当前版本是多少;4、每天做什么
1、什么是数据中台;2、数据中台的划分;3、中台使
用场景
1、数据湖(hudi)
增量同步
Maxwell
全量同步
DataX
业务消费
Flume
Maxwell注意事项:
1.断点续传
2.全量同步
1、Hive内部表、外部表区别;2、4个By;3、系统
函数4、自定义UDF、UDTF函数5、窗口函数、6、
Hive优化7、数据倾斜;8、Hive引擎9、元数据备份
1、ODS层做了哪些事?
保持数据原貌不做任何修改、采用压缩、创建分区表
公共维度层
DIM层
1、DIM层做了哪些事?
保存维度模型中的所有维度表
1、DWS层做了哪些事?
字段怎么来、多少张宽表、哪个宽表最宽、有多少字
段
1、DWD层做了哪些事?ETL、ETL手段选择、清洗掉多少数
据算合理、脱敏、压缩、列式存储、创建分区表、维度退化、
建模工具PowerDesigner/ EZDML、维度建模(4步)
1、ADS层做了哪些事?
分析过哪100个指标、现场手写、遇到过哪些疑难指
标
大数据项目之在线教育数仓(用户行为采集平台)
—————————————————————————————
2.2.3
框架版本选型
框架发行版本选型
1)如何选择Apache/CDH/HDP版本?
(1)Apache:运维麻烦,组件间兼容性需要自己调研。(一般大厂使用,技
术实力雄厚,有专业的运维人员) (建议使用)
(2)CDH:国内使用最多的版本,但CM不开源,今年开始收费,一个节点1
万美金/年。
(3)HDP:开源,可以进行二次开发,但是没有CDH稳定,国内使用较少
2)云服务选择
(1)阿里云的EMR、MaxCompute、DataWorks
(2)亚马逊云EMR
(3)腾讯云EMR
(4)华为云EMR
具体版本型号
(1)Apache框架版本
注意事项:框架选型尽量不要
选择最新的框架,选择最新框
架半年前左右的稳定版。
框架 旧版本 新版本
Hadoop 2. 7. 2 3. 1. 3
Zookeeper 3. 4. 10 3. 5. 7
MySQL 5. 6. 24 5. 7. 16
Hi ve 1. 2. 1 3. 1. 2
Fl ume 1. 7. 0 1. 9. 0
Kaf ka 2. 4. 1 3. 0. 0
Spar k 2. 1. 1 3. 0. 0
Dat aX 3. 0. 0
Super set 1. 3. 2
Dol phi nSchedu
l er
1. 3. 9 2. 0. 3
Maxwel l 1. 29. 2
剩余46页未读,继续阅读
资源评论
Bigdata_shit
- 粉丝: 5
- 资源: 3
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 使用堆栈数据结构解迷宫问题
- SoftFloat-3e.zip
- Easy Save - 3.5.6
- 基于tensorflow的目标检测系统源码+部署教程文档+全部数据+训练好的模型(高分项目)
- 基于Python皮肤电信号的情绪识别算法源码+模型+PPT+详细文档+全部数据资料.zip
- 基于Python皮肤电信号的情绪识别算法源码+模型+PPT+详细文档+全部数据资料.zip
- 区块链毕业设计 基于区块链的慈善募捐平台的智能合约源码+详细文档+全部资料(高分项目).zip
- 区块链毕业设计 基于区块链的慈善募捐平台的智能合约源码+详细文档+全部资料(高分项目).zip
- 区块链毕业设计 基于区块链的慈善募捐平台的智能合约源码+详细文档+全部资料(高分项目).zip
- 免费听歌软件,支持无损音乐下载,支持收藏音乐同步
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功