基于spark及用户行为标签的日志大数据分析系统.zip

共39个文件

scala：20个

py：5个

sql：4个

版权申诉

Spark

毕业设计

课程设计

80 浏览量 2023-12-24 00:25:54 上传评论收藏 1.48MB ZIP 举报

《基于Spark及用户行为标签的日志大数据分析系统》该项目主要涵盖了大数据处理和分析的核心技术，特别是使用Apache Spark框架进行日志数据的处理与分析。Spark作为一款强大的分布式计算框架，以其高效、易用和多模态处理能力，广泛应用于大数据处理领域。此项目旨在通过Spark实现对用户行为日志的深度分析，为业务决策提供数据支持。 1. **Spark核心概念** Spark由RDD（弹性分布式数据集）为基础，提供了DataFrame和Dataset等高级API，简化了大数据处理的编程模型。RDD是Spark中不可变、分区的记录集合，具有并行操作的能力。DataFrame和Dataset则基于Spark SQL，提供了更丰富的SQL查询功能和类型安全。 2. **用户行为标签** 用户行为标签是通过对用户在应用中的各种行为进行抽象和分类，形成的一种用于描述用户习惯、偏好或状态的数据标签。这些标签可以包括点击、浏览、购买、搜索等多种行为，有助于理解用户需求，优化产品体验，或者进行精准营销。 3. **日志数据处理** 日志数据通常包含丰富的用户行为信息，但原始日志格式各异，需要预处理才能用于分析。这个项目可能涉及日志清洗、解析、转换等步骤，以提取关键字段，如用户ID、时间戳、事件类型等，构建有意义的数据模型。 4. **数据分析流程** 分析流程可能包括数据加载、探索性数据分析（EDA）、特征工程、建模和结果解释。EDA用于了解数据分布和潜在关联，特征工程是将原始数据转化为机器学习模型可接受的输入，建模可能涉及到分类、聚类、回归等多种方法，结果解释则需将模型预测与实际业务相结合。 5. **Spark组件应用** Spark的多个组件，如Spark Core、Spark SQL、Spark Streaming、MLlib等，可能在这个项目中得到应用。Spark Core负责基本的调度和任务管理，Spark SQL处理结构化数据，Spark Streaming用于实时流处理，而MLlib则提供了机器学习算法库。 6. **毕业设计与课程设计** 该项目适合作为毕业设计或课程设计项目，因为它涵盖了大数据处理的实战技能，能够帮助学生理解大数据分析的全貌，从数据获取到结果输出的全过程，同时也锻炼了使用Spark解决实际问题的能力。 7. **学习与实践** 对于初学者，这个项目提供了一个很好的学习平台，通过阅读和运行源码，可以深入理解Spark的工作原理，提升大数据处理技能。同时，它也适合有一定基础的学习者，作为进一步提高和扩展知识的实例。 "基于Spark及用户行为标签的日志大数据分析系统"是一个综合性的项目，涵盖了大数据处理的多个方面，不仅提供了实践操作的机会，也有助于理论知识的巩固和深化。无论是对于学术研究还是实际工作，都能提供宝贵的参考和学习价值。

资源推荐

资源详情

资源评论

收起资源包目录

基于spark及用户行为标签的日志大数据分析系统.zip （39个子文件）

LabelLogAnalysis-master

sql

window_view_alter.sql 445B

window_data_move.sql 452B

window_partition_shift.sql 345B

impala.sql 3KB

pom.xml 9KB

src

test

resources

log4j.properties 316B

mock_data 26B

scala

com

wzx

mock

Upload2KafkaTest.scala 868B

extracting

NewRegisterExtractTest.scala 1007B

VideoVisitOver100Test.scala 1KB

streaming

DataExtractTest.scala 6KB

ProfileMapperTest.scala 3KB

main

resources

application.conf 581B

ip2region.db 3.15MB

log4j.properties 1KB

scala

com

wzx

mock

Upload2Kafka.scala 2KB

sink

KuduSink.scala 2KB

common

TableName.scala 269B

FilePath.scala 595B

Constant.scala 189B

entity

Event.scala 274B

Profile.scala 161B

extracting

NewRegisterExtract.scala 2KB

VideoVisitOver100.scala 2KB

streaming

DataExtract.scala 5KB

ProfileMapper.scala 2KB

util

TransformUtil.scala 657B

IpUtil.scala 561B

OptionUtil.scala 426B

DateUtil.scala 1KB

img

pic1.jpg 65KB

.gitignore 4KB

script

deploy.py 2KB

topic.py 907B

crontab.py 1KB

submit.py 1KB

create_dataset.py 1KB

.scalafmt.conf 15B

README.md 5KB

# 基于标签的用户日志分析系统 ## 架构 - 实时etl: mock Kafka uploader -> Kafka -> Flink -> Kudu。实时处理日志数据流，生成事件和用户属性 - event: 用户事件 - profile: 用户属性 - 离线标签: (Parquet, Kudu) -> Spark -> Parquet。每天凌晨自动跑的两个离线任务，生成对应用户标签 - 近一周新注册的用户 - 今年来video访问量超过100的用户 - 滑动窗口: Impala SQL。存储分层，三个任务每个月执行一次 - 数据移动: [kudu -> parquet](sql/window_data_move.sql) - 分区移动: [alter kudu range partition](sql/window_partition_shift.sql) - 视图移动: [alter kudu view](sql/window_view_alter.sql) - OLAP: (Parquet, Kudu) -> Impala -> Hue - [数据表结构](sql/impala.sql) ## 滑动窗口模式 ### 技术选型 - HDFS Parquet: 列式存储结构 - 适合OLAP场景，只读取需要的列，**更小的IO操作** - 适合存储历史大容量的，列式存储使得每个列高效的压缩和编码，**更高地压缩比** - Kudu: HBase低延迟的记录级别随机读写与HDFS高吞吐量连续读取数据的能力的**平衡点** - 低延迟的更新，适用于**实时数据的快速入库** - 接近于Parquet的批量扫描性能，适用于**OLAP分析** - 快速插入更新，适用于**维度表** ### 存储分层 ![](img/pic1.jpg) - Kudu: 保存一个月的Event数据 - HDFS: 保存剩下的历史数据 - Boundary: 滑动窗口的边界 - VIEW: Kudu和HDFS的统一视图 ## 日志原始日志只有一天的数据量，格式如下 ``` 60.165.39.1 - - [10/Nov/2016:00:01:53 +0800] "POST /course/ajaxmediauser HTTP/1.1" 200 54 "www.imooc.com" "http://www.imooc.com/code/1431" mid=1431&time=60 "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X MetaSr 1.0" "-" 10.100.136.64:80 200 0.014 0.014 14.145.74.175 - - [10/Nov/2016:00:01:53 +0800] "POST /course/ajaxmediauser/ HTTP/1.1" 200 54 "www.imooc.com" "http://www.imooc.com/video/678" mid=678&time=60&learn_time=551.5 "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36" "-" 10.100.136.64:80 200 0.014 0.014 ``` 链接: https://pan.baidu.com/s/169yznx9QOyMQcOoEL55f2Q 密码: 47vc `create_dataset.py`会根据集群数量自动切分原始日志，并将时间修改为近两个月的均匀分布 ## 集群配置 - master - Mysql - HDFS NameNode - HDFS SecondaryNameNode - ZooKeeper Server - Kudu Master - YARN Resource Manager - Hive Metastore Server - HiveServer2 - Hue Server - Impala Catalog Server - Impala StateStore - Impala Daemon - slave1: - HDFS DataNode - Kafka Broker - YARN Node Manager - Kudu Tablet Server - ZooKeeper Server - Impala Daemon - slave2: - HDFS DataNode - Kafka Broker - YARN Node Manager - Kudu Tablet Server - ZooKeeper Server - Impala Daemon ## 部署首先修改`src/main/resources/application.conf`里的配置以下脚本可以在开发机上使用 - `script/deploy.py`: 部署工程到集群`wzx.deploy.cluster` - `script/create_dataset.py`: 根据原始日志进行时间更改和切分, 部署时被调用部署完成后, 以下脚本可以`wzx.deploy.master`上使用, 使用前cd到`wzx.deploy.data_path`下 - `submit.py`: 提交spark或flink作业 - `topic.py`: kafka的topic相关 - `crontab.py`: 部署crontab定时任务开始部署 1. 安装CDH Manager，参考[官方教程](https://docs.cloudera.com/documentation/enterprise/6/6.0/topics/installation.html) 2. 在CDH中添加Flink, HDFS, Hive, Kafka, Kudu, Spark, YARN, ZooKeeper, Hue - HDFS注意关闭权限检查 - 在CDH里配置YARN和Flink的系统用户为root, 以获得访问文件的权限 - 如果集群配置较低，增加kudu negotiation rpc timeout时间 - 在CDH的 "gflagfile的Kudu服务高级配置代码段" 增加 `--rpc_negotiation_timeout_ms=300000` - 在CDH的 "gflagfile的Master高级配置代码段" 增加 `--rpc_negotiation_timeout_ms=300000` - 在CDH的 "gflagfile的TabletServer高级配置代码段" 增加 `--rpc_negotiation_timeout_ms=300000` 3. 在开发机和`wzx.deploy.master`机器上安装`pyhocon`。`pip3 install pyhocon` 4. 下载[日志](#日志) 5. 在开发机上运行`python3 script/deploy.py path_of_log`, 将完成以下工作 - 调用`script/create_dataset.py`根据原始日志进行时间更改和切分并上传到集群 - 编译jar包并上传到集群 - 创建Kafka topic - 创建Impala数据表 - 创建crontab离线sql作业和Spark作业 - 提交实时Flink作业 6. 在集群上开启Mock Kafka Uploader - 在`wzx.deploy.cluster`机器上的`wzx.deploy.data_path`目录下执行`java -jar LabelLogAnalysis-1.0-SNAPSHOT-jar-with-dependencies.jar` ## 参考 1. [mooc日志分析系统](https://github.com/whirlys/BigData-In-Practice/tree/master/ImoocLogAnalysis) 2. [使用Apache Kudu和Impala实现存储分层](https://my.oschina.net/dabird/blog/3051625)

评论收藏

内容反馈

版权申诉