# 一、电商数仓
1.对电商业务所产生的业务数据和用户行为数据构建数据仓库来管理,为后续数据应用,提供数据支持。
2.使用的技术框架
数据管理是:hive,数据计算是spark、hive
数据采集传输是flume、datax、maxwell、kafka
数据存储是:mysql、hdfs
数据可视化是superset
3.采集层:
有用户行为日志和用户业务数据的采集
用户行为日志模块:将生成的用户行为日志存放在本地磁盘,创建flume-kafka-flume采集通道,生成每天的用户行为日志存储到HDFS。
业务数据采集模块分为全量同步和增量同步,若业务表数据量比较大,且每天数据变化的比例比较低,这时应采用增量同步,否则可采用全量同步。
全量同步采用DataX,
增量同步采用Maxwell+kafka+flume。
4.数据建模层:
原始数据层(ODS):存放未经处理的原始数据,是数据仓库的数据准备区,就是存放在HDFS上的数据。
明细数据层(DWD):基于维度建模理论进行构建,存放维度模型中的事实表,保存各业务过程最小粒度的操作记录。
公共维度层(DIM):基于维度建模论进行构建,存放维度模型中的维度表,保存一致性维度信息。
汇总数据层(DWS) : 基于上层的指标需求,以分析的主题对象作为建模驱动,构建公共统计粒度的汇总表。
数据应用层(ADS): 存放各项统计指标结果。可以有流量主题的访客数。
工作流调度实操
为方便报表应用使用数据,需将ads各指标的统计结果导出到MySQL数据库中。使用superset进行可视化。
没有合适的资源?快使用搜索试试~ 我知道了~
事实表和维度表:构建稳健的数据仓库模型
共109个文件
sql:39个
sh:29个
xml:8个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 92 浏览量
2024-06-02
06:31:19
上传
评论
收藏 1.61MB ZIP 举报
温馨提示
数仓建模 1. 数仓架构的原则: 底层业务的数据驱动为导向同时结合业务需求驱动 便于数据分析 屏蔽底层复杂业务 简单、完整、集成的将数据暴露给分析层 底层业务变动与上层需求变动对模型冲击最小化 业务系统变化影响削弱在基础数据层(资金订单改造) 结合自上而下的建设方法削弱需求变动对模型的影响 数据水平层次清晰化 高内聚松耦合 主题之内或各个完整意义的系统内数据的高内聚 主题之间或各个完整意义的系统间数据的松耦合 构建仓库基础数据层 使得底层业务数据整合工作与上层应用开发工作相隔离,为仓库大规模开发奠定基础 仓库层次更加清晰,对外暴露数据更加统一 数仓模型不只是考虑如何设计和实现功能,设计原则应该从访问性能、数据成本、使用成本、数据质量、扩展性来考虑。如何搭建一个好的数据仓库: 数仓设计的3个维度: 2. 主流建模方法 当前主流建模方法为:ER模型、维度模型。 ER模型常用于OLTP数据库建模,应用到构建数仓时更偏重数据整合, 站在企业整体考虑,将各个系统的数据按相似性一致性、合并处理,为数据分析、决策服务,但并不便于直接用来支持分析。
资源推荐
资源详情
资源评论
收起资源包目录
事实表和维度表:构建稳健的数据仓库模型 (109个子文件)
zoo.cfg 1KB
my.cnf 1KB
install_config.conf 4KB
kafka_to_hdfs_db.conf 1KB
kafka_to_hdfs.conf 1KB
spark-defaults.conf 1KB
file_to_kafka.conf 703B
.gitignore 350B
TimestampInterceptor.java 1KB
TimestampInterceptor.java 1KB
ETLInterceptor.java 1KB
JSONUtils.java 384B
tables.jpg 722KB
warehouse.jpg 449KB
dolphinscheduler.jpg 153KB
dblog.jpg 101KB
applog.jpg 76KB
activity_info.json 2KB
path.json 1KB
LICENSE 9KB
README.md 2KB
architecture.png 53KB
server.properties 7KB
log4j.properties 3KB
application.properties 2KB
config.properties 641B
datasource.properties 253B
gen_import_config.py 4KB
gen_export_config.py 3KB
ods_to_dwd.sh 24KB
ods_to_dwd_init.sh 24KB
dws_to_ads.sh 21KB
ods_to_dim.sh 10KB
dws_1d_to_dws_nd.sh 9KB
ods_to_dim_init.sh 6KB
dwd_to_dws_1d.sh 6KB
dwd_to_dws_1d_init.sh 6KB
mysql_to_hdfs_full.sh 4KB
hdfs_to_mysql.sh 4KB
dws_1d_to_dws_td.sh 3KB
hdfs_to_ods_db.sh 3KB
dws_1d_to_dws_td_init.sh 2KB
test.sh 1KB
mysql_to_kafka_inc_init.sh 1KB
gen_export_config.sh 1KB
dolphinscheduler_env.sh 1KB
myhadoop.sh 1KB
gen_import_config.sh 1KB
mymaxwell.sh 655B
myzookeeper.sh 635B
flume1.sh 559B
flume3.sh 519B
flume2.sh 513B
mykafka.sh 481B
hdfs_to_ods_log.sh 434B
getlog.sh 190B
spark-env.sh 97B
hive-env.sh 28B
gmall.sql 217KB
nd.sql 20KB
1d.sql 19KB
gmall_report.sql 16KB
sku.sql 13KB
user.sql 10KB
full_db_table.sql 9KB
inc_db_table.sql 9KB
trade_pay_detail_suc_inc.sql 7KB
td.sql 7KB
user_zip.sql 6KB
trade_cancel_detail_inc.sql 6KB
trade_order_detail_inc.sql 6KB
trade.sql 5KB
sku_full.sql 4KB
trade_order_refund_inc.sql 4KB
trade_refund_pay_suc_inc.sql 4KB
user_login_inc.sql 4KB
traffic_error_inc.sql 4KB
traffic_display_inc.sql 3KB
user_register_inc.sql 3KB
traffic_page_view_inc.sql 3KB
coupon_full.sql 3KB
traffic.sql 3KB
traffic_action_inc.sql 3KB
trade_cart_add_inc.sql 3KB
activity_full.sql 3KB
traffic_start_inc.sql 2KB
interaction_comment_inc.sql 2KB
tool_coupon_order_inc.sql 1KB
tool_coupon_pay_inc.sql 1KB
date.sql 1KB
province_full.sql 1KB
log_table.sql 1KB
interaction_favor_add_inc.sql 1KB
tool_coupon_get_inc.sql 1KB
coupon.sql 927B
activity.sql 854B
trade_cart_full.sql 816B
date_info.txt 24KB
新建文本文档.txt 5KB
workers 33B
共 109 条
- 1
- 2
资源评论
野生的狒狒
- 粉丝: 3393
- 资源: 2436
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功