# SZT-bigdata 深圳地铁大数据客流分析系统 🚇🚇🚇
<div align="center">
<a href="https://github.com/geekyouth/SZT-bigdata" target="_blank">
<img src=".file/.doc/full-logo.png" alt="logo">
</a>
</div>
---
<div align="center">
<a href="https://github.com/geekyouth/SZT-bigdata/stargazers" target="_blank">
<img src="https://img.shields.io/github/stars/geekyouth/SZT-bigdata?style=for-the-badge">
</a>
<a href="https://github.com/geekyouth/SZT-bigdata/network/members" target="_blank">
<img src="https://img.shields.io/github/forks/geekyouth/SZT-bigdata?style=for-the-badge">
</a>
<a href="https://github.com/geekyouth/SZT-bigdata/watchers" target="_blank">
<img src="https://img.shields.io/github/watchers/geekyouth/SZT-bigdata?style=for-the-badge">
</a>
<a href="https://github.com/geekyouth/SZT-bigdata/releases" target="_blank">
<img src="https://img.shields.io/github/v/release/geekyouth/SZT-bigdata?style=for-the-badge">
</a>
<a href="https://github.com/geekyouth/SZT-bigdata/issues" target="_blank">
<img src="https://img.shields.io/github/issues/geekyouth/SZT-bigdata?style=for-the-badge">
</a>
<a href="https://github.com/geekyouth/SZT-bigdata/blob/master/LICENSE" target="_blank">
<img src="https://img.shields.io/github/license/geekyouth/SZT-bigdata?style=for-the-badge">
</a>
<br/>
<a href="https://java666.cn" target="_blank">
<img src="https://img.shields.io/badge/博客:-https://java666.cn-red?style=for-the-badge">
</a>
</div>
---
```
___ ____ _____ _ _ __ _ _ _
/ __| |_ / |_ _| ___ | |__ (_) / _` | __| | __ _ | |_ __ _
\__ \ / / | | |___| | '_ \ | | \__, | / _` | / _` | | _| / _` |
|___/ /___| _|_|_ _____ |_.__/ _|_|_ |___/ \__,_| \__,_| _\__| \__,_|
_|"""""|_|"""""|_|"""""|_| |_|"""""|_|"""""|_|"""""|_|"""""|_|"""""|_|"""""|_|"""""|
"`-0-0-'"`-0-0-'"`-0-0-'"`-0-0-'"`-0-0-'"`-0-0-'"`-0-0-'"`-0-0-'"`-0-0-'"`-0-0-'"`-0-0-'
```
---
## 项目说明🚩:
- 🎈 该项目主要分析深圳通刷卡数据,通过大数据技术角度来研究深圳地铁客运能力,探索深圳地铁优化服务的方向;
- ✨ 强调学以致用,本项目的原则是尽可能使用较多的常用技术框架,加深对各技术栈的理解和运用,在使用过程中体验各框架的差异和优劣,为以后的项目开发技术选型做基础;
- 👑 解决同一个问题,可能有多种技术实现,实际的企业开发应当遵守最佳实践原则;
- 🎉 学习过程优先选择较新的软件版本,因为新版踩坑一定比老版更多,坑踩的多了,技能也就提高了,遇到新问题可以见招拆招、对症下药;
- 🚀 ...
---
## 第一期架构图
原图 [.file/.doc/SZT-bigdata-2.png](.file/.doc/SZT-bigdata-2.png)
![](.file/.doc/SZT-bigdata-2+.png)
```
数字标记不分先后顺序,对应代码:
1-cn.java666.sztcommon.util.SZTData
2-cn.java666.etlflink.app.Jsons2Redis
3-cn.java666.etlspringboot.controller.RedisController#get
4-cn.java666.etlflink.app.Redis2ES
5-cn.java666.etlflink.app.Redis2Csv
6-Hive sql 脚本(开发维护成本最低)
7-Saprk 程序(开发维护成本最高,但是功能更强)
8-HUE 方便查询和展示 Hive 数据
9-cn.java666.etlflink.app.Redis2HBase
10、14-cn.java666.szthbase.controller.KafkaListen#sink2Hbase
11-cn.java666.etlflink.app.Redis2HBase
12-CDH HDFS+HUE+Hbase+Hive 一站式查询
13-cn.java666.etlflink.app.Redis2Kafka
15-cn.java666.sztflink.realtime.Kafka2MyCH
16-cn.java666.sztflink.realtime.sink.MyClickhouseSinkFun
```
---
## 核心技术栈 + 版本选择 + 点评 (持续更新)⚡:
![](.file/.doc/stack2.jpg)
- Java-1.8/Scala-2.11,生态丰富,轮子够多;
- Flink-1.10,流式业务、ETL 首选。发展势头如日中天,阿里巴巴背书,轻快灵活、健步如飞;就问你信不信马云???😚😚😚
- Redis-3.2,天然去重,自动排序,除了快还是快。廉价版硬盘实现同类产品 SSDB。Win10|CentOS7|Docker Redis-3.2 三选一,CentOS REPL yum 安装默认使用3.2版本;
- Kafka-2.1,消息队列业务解耦、流量消峰、订阅发布场景首选。最佳 CP:kafka-eagle-1.4.5,集生产、消费、Ksql、大屏、监控、报警于一身,同时监控 zk。其他我用过的 Kafka 监控组件最后都放弃了:
- KafkaOffsetMonitor 问题太多,丑拒;
- Kafka Manager,已更名为 CMAK,老外写的软件用起来就觉得很别扭,而且最高只兼容 Kafka 0.11,但是 Kafka 官方已经升级到 2.4 了啊喂;
- 其他各种开源的 Kafka 监控基本都试过,一个能打的都没有。
- Zookeeper-3.4.5,集群基础依赖,选举时 ID 越大越优势,通过会话机制维护各组件在线状态;
- CDH-6.2,解决了程序员最难搞的软件兼容性问题,全家桶服务一键安装;
- Docker-19,最快速度部署一款新软件,无侵入、无污染、快速扩容、服务打包。如果当前没有合适的运行环境,那么 docker 一定是首选;
- SpringBoot-2.13,通用 JAVA 生态,敏捷开发必备;
- knife4j-2.0,前身为 swagger-bootstrap-ui,REST API 项目调试简直不要太方便,秒杀原版丝袜哥十个数量级;
- Elasticsearch-7,全文检索领域唯一靠谱的数据库,搜索引擎核心服务,亿级数据毫秒响应,真实时,坑也多🔊🔊🔊;
- Kibana-7.4,ELK 全家桶成员,前端可视化,小白也不怕;
- ClickHouse,家喻户晓的 nginx 服务器就是俄罗斯的代表作,接下来大红大紫的 clickhouse 同样身轻如燕,但是性能远超目前市面所有同类数据库,存储容量可达PB级别。目前资料还不多,正在学习中;
- MongoDB-4.0,文档数据库,对 Json 数据比较友好,主要用于爬虫数据库;
- Spark-2.3,目前国内大数据框架实时微批处理、离线批处理主流方案。这个组件太吃资源了,曾经在我开发时,把我的笔记本搞到蓝屏,于是我直接远程提交到 spark 集群了。接下来预计 Flink 开始表演了🦘,真的用了更快的框架就爱上了😍😍😍;
- Hive-2.1,Hadoop 生态数仓必备,大数据离线处理 OLAP 结构化数据库,准确来说是个 HQL 解析器,查询语法接近 Mysql,就是窗口函数比较复杂😭😭😭;
- Impala-3.2,像羚羊一样轻快矫健,同样的 hive sql 复杂查询,impala 毫秒级返回,hive 却需要80秒左右甚至更多;
- HBase-2.1 + Phoenix,Hadoop 生态下的非结构化数据库,HBase 的灵魂设计就是 rowkey 和多版本控制,凤凰嫁接 hbase 可以实现更复杂的业务;
- Kylin-2.5,麒麟多维预分析系统,依赖内存快速计算,但是局限性有点多啊,适用于业务特别稳定,纬度固定少变的场景,渣渣机器就别试了,内存太小带不起;
- HUE-4.3,CDH 全家桶赠送的,强调用户体验,操作数仓很方便,权限控制、hive + impala 查询、hdfs 文件管理、oozie 任务调度脚本编写全靠他了;
- 阿里巴巴 DataX,异构数据源同步工具,主持大部分主流数据库,甚至可以自己开发插件,马云家的东西,我选你!!!如果你觉得这还满足不了你的特殊业务需求,那么推荐你用 FlinkX,基于 Flink 的分布式数据同步工具。理论上你也可以自己开发插件;
- Oozie-5.1,本身 UI 奇丑,但是配合 HUE 食用尚可接受,主要用来编写和运行任务调度脚本;
- Sqoop-1.4,主要用来从 Mysql 导出业务数据到 HDFS 数仓,反过来也行;
- Mysql-5.7,程序员都要用的吧,如果说全世界程序员都会用的语言,那一定是 SQL。Mysql 8.0 普及率不够高,MariaDB 暂不推荐,复杂的函数不兼容 Mysql,数据库这么基础的依赖组件出了问题你�
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
计算机毕设:基于spark的地铁大数据客流分析系统源码(高分项目).zip本资源中的源码都是经过本地编译过可运行的,下载后按照文档配置好环境就可以运行。资源项目的难度比较适中,内容都是经过助教老师审定过的能够满足学习、使用需求,如果有需要的话可以放心下载使用。 计算机毕设:基于spark的地铁大数据客流分析系统源码(高分项目).zip本资源中的源码都是经过本地编译过可运行的,下载后按照文档配置好环境就可以运行。资源项目的难度比较适中,内容都是经过助教老师审定过的能够满足学习、使用需求,如果有需要的话可以放心下载使用。 计算机毕设:基于spark的地铁大数据客流分析系统源码(高分项目).zip本资源中的源码都是经过本地编译过可运行的,下载后按照文档配置好环境就可以运行。资源项目的难度比较适中,内容都是经过助教老师审定过的能够满足学习、使用需求,如果有需要的话可以放心下载使用。 计算机毕设:基于spark的地铁大数据客流分析系统源码(高分项目).zip本资源中的源码都是经过本地编译过可运行的,下载后按照文档配置好环境就可以运行。资源项目的难度比较适中,内容都是经过助教老师审定过的能够
资源推荐
资源详情
资源评论
收起资源包目录
计算机毕设:基于spark的地铁大数据客流分析系统源码(高分项目).zip (202个子文件)
LICENSE.996 3KB
LICENSE_CN.996 2KB
hbase.command 280B
logstash-nginx.config 429B
szmc.net-metro.csv 7KB
.editorconfig 256B
.gitignore 333B
.gitignore 333B
.gitignore 28B
search.http 449B
szt-api.http 410B
favicon.ico 5KB
SztDataDao.java 3KB
KafkaConsumerConfig.java 3KB
ParseCardNo.java 2KB
SZTData2.java 2KB
KafkaProducerConfig.java 2KB
APIConfig.java 2KB
APIConfig.java 2KB
SztDataService.java 2KB
SZTData.java 2KB
ThreadQueue.java 2KB
SztEnum.java 2KB
KafkaListen.java 1KB
ProducerController.java 904B
SztDataController.java 856B
RootController.java 805B
TestRunnable.java 781B
RedisService.java 740B
RedisController.java 705B
CardController.java 628B
RunnableDemo.java 561B
SztDataBean.java 537B
EtlSApp.java 430B
ThreadDemo.java 373B
EtlSAppTests.java 339B
SztHbaseAppTests.java 338B
MyRunnable.java 318B
SztHbaseApp.java 311B
MyThread.java 307B
0-pcs.jpg 1.48MB
stack2.jpg 162KB
output.jpg 101KB
szmc.net-metro.json 206KB
page1x100.json 26KB
MiniTime.json 2KB
redaction-rules.json 2KB
LICENSE 582B
nginx.log 1.83MB
topology.map 365B
README.md 38KB
README.md 2KB
README.md 2KB
README.MD 1KB
custom-issue-template----------.md 251B
0-szt.png 2.37MB
0-stack.png 936KB
数据湖中台解决方案.png 489KB
szt-sale-95.png 394KB
kafka-eagle02.png 377KB
clickhouse-sql.png 255KB
redis-szt-pageJson.png 212KB
es-szt-data.png 203KB
hbase-run.png 188KB
szt-data-2018-09-01.png 173KB
szt-map.png 163KB
hue-hbase-szt.png 156KB
clickhouse-tabix.png 143KB
baiduMap1.png 142KB
dbeaver-dev+hive.png 131KB
ads_out_station_day_top2.png 125KB
kafka2hbase.png 124KB
idea-dev+hive.png 122KB
ads_card_deal_day_top.png 122KB
ads_in_out_station_day_top.png 118KB
WTF.png 117KB
2018-09-01.png 115KB
2018-09-01-am.png 115KB
redis-es.png 110KB
ads_out_station_day_top.png 110KB
ads_line_send_passengers_day_top.png 108KB
ads_station_deal_top.png 106KB
ads_line_deal_top.png 104KB
0-es-view.png 102KB
ads_line_single_ride_average_time_day_top.png 102KB
es-index-test-szt.png 101KB
ads_station_in_equ_num_top.png 101KB
ads_station_out_equ_num_top.png 100KB
SZT-bigdata-1+.png 99KB
ads_stations_send.png 98KB
ads_passenger_spend_time_day_top.png 98KB
ads_in_station_day_top.png 97KB
ads_all_passengers_single_ride_spend_time_average.png 96KB
ads_in_station_day_top2.png 96KB
ads_line_sale_ratio_top.png 96KB
kibana-search-card-1.png 95KB
ads_conn_spend_time_top.png 94KB
api-debug.png 94KB
ads_line_in_equ_num_top.png 93KB
ads_conn_ratio_day_top.png 93KB
共 202 条
- 1
- 2
- 3
资源评论
- m0_709534962024-10-29资源内容详细,总结地很全面,与描述的内容一致,对我启发很大,学习了。
盈梓的博客
- 粉丝: 9280
- 资源: 2197
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功