## 0、环境的介绍:
1. spark 2.4.4
2. scala 2.11.8
3. hive 3.1.2
4. mysql 5.7.28
5. kafka_2.12-2.3.0
6. jdk 1.8.0_192
7. hadoop 2.9.2
8. zookeeper-3.5.5
9. Ubuntu 18.04
10. Windows10
## 1、程序中包的解释
#### Commons包:公共模块包
- conf:配置工具类,获取commerce.properties文件中的所有配置信息,
使用户可以通过对象的方式访问commerce.properties中的所有配置
- constant:常量接口,包括项目中所需要使用的所有常量
- model: Spark SQL样例类,包括Spark SQL中的用户访问动作表、
用户信息表、产品表的样例类
- pool:MySQL连接池,通过自定义MySQL连接池,实现对MySQL数据库
的操作
- utils:工具类,提供了日期时间工具类、数字格式工具类、参数工具类、字符串工具类、校验工具类等工具类,
里面的类有:
1. DateUtils:时间工具类,负责时间的格式化、判断时间先后、计算时间差值、获取指定日期等工作
2. NumberUtils:数字工具类,负责数字的格式化工作,将Double类型的数字精确为指定位数的小数
3. ParamUtils:参数工具类,负责从JSON对象中提取参数
4. StringUtils:字符串工具类,负责字符串是否为空判断、字符串截断与补全、从拼接字符串中提取字段、给拼接字符串中字段设置值等工作
5. ValidUtils:校验工具类,负责校验数据中的指定字段是否在指定范围范围内、校验数据中的指定字段中是否有值与参数字段相同、校验数据中的指定字段是否与参数字段相同等工作
#### mock包:模拟数据产生包
- MockDataGenerate:离线模拟数据生成,负责生成离线模拟数据
并写入Hive表中,模拟数据包括用户行为信息、用户信息、产品数据
信息等
- MockRealtimeDataGenerate:实时模拟数据生成,负责生成实时
模拟数据并写入Kafka中,实时模拟数据为实时广告数据
#### analysis包:数据分析包
- session:用户访问session统计
- session访问步长/访问时长占比统计
- 按比例随机抽取session
- top10热门品类统计
- top10热门品类活跃session统计
- page:页面单跳转化率统计
- product:区域热门商品统计
- advertising:广告流量实时统计
- 动态黑名单实时统计
- 各省各城市广告流量实时统计
- 各省热门广告实时统计
- 最近一小时广告点击量实时统计
## 2、数据库设计
#### mysql中commerce数据库
- session_aggr_stat:保存session访问步长占比统计的结果
- session_random_extract:保存session随机抽取的结果
- top10_category:保存Top10热门品类统计的结果
- top10_session:保存Top10热门品类的Top10活跃Session统计的结果
- page_split_convert_rate:保存页面单跳转化率统计的结果
- area_top3_product:保存各区域Top3商品统计的结果
- ad_user_click_count:维护动态黑名单的表
- ad_blacklist:黑名单列表
- ad_stat:各省各城市广告流量实时统计结果
- ad_province_top3:各省热门广告实时统计结果
- ad_click_trend:最近一小时广告点击量实时统计结果
#### hive中db_UserBehaviors数据库
- user_visit_action表:存放的是用户行为(点击,搜索,下单,付款四种行为)
- user_info表:存放的是用户信息
- product_info表:存放的是产品信息
## 3、注意事项
- hive数据库元数据总是出
Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient问题;
执行hive --service metastore &
- hive中删除有表的数据库:drop database 数据库名字 cascade;
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
## 0、环境的介绍: 1. spark 2.4.4 2. scala 2.11.8 3. hive 3.1.2 4. mysql 5.7.28 5. kafka_2.12-2.3.0 6. jdk 1.8.0_192 7. hadoop 2.9.2 8. zookeeper-3.5.5 9. Ubuntu 18.04 10. Windows10 ## 1、程序中包的解释 #### Commons包:公共模块包 - conf:配置工具类,获取commerce.properties文件中的所有配置信息, 使用户可以通过对象的方式访问commerce.properties中的所有配置 - constant:常量接口,包括项目中所需要使用的所有常量 - model: Spark SQL样例类,包括Spark SQL中的用户访问动作表、 用户信息表、产品表的样例类 - pool:MySQL连接池,通过自定义MySQL连接池,实现对MySQL数据库 的操作 - utils:工具类,提供了日期时间工具类、数字格式工具类、参数工具类、字符串工具类、校验工具类等工具类, 里面的类有: 1. Dat
资源推荐
资源详情
资源评论
收起资源包目录
基于Spark的电商数据分析 (277个子文件)
$PRODUCT_WORKSPACE_FILE$ 489B
.gitignore 94B
.gitignore 32B
AnalysisOfUserBehaviors.iml 21KB
README.md 4KB
commerce.properties 2KB
log4j.properties 2KB
Demand1Function.scala 19KB
UserSessionAnalysisFunction2.scala 10KB
AreaTop3ProductFunc.scala 9KB
UserSessionAnalysisFunction3.scala 7KB
MockDataGenerate.scala 7KB
UserSessionAnalysisFunction4.scala 5KB
AdClickRealTimeStatFunction.scala 5KB
PageFunction.scala 4KB
AdUserClickCountDAO.scala 4KB
UserSessionAnalysisFunction1.scala 3KB
DateUtils.scala 3KB
Demo.scala 3KB
ValidUtils.scala 3KB
PageOneStepConvertRate.scala 3KB
MySqlProxy.scala 3KB
AdClickRealTimeStatFunction3.scala 3KB
AdClickRealTimeStat.scala 3KB
Constants.scala 3KB
MockRealTimeData.scala 2KB
AdClickTrendDAO.scala 2KB
StringUtils.scala 2KB
GroupConcatDistinctUDAF.scala 2KB
SessionAggrStat.scala 2KB
AdStatDAO.scala 2KB
AdProvinceTop3DAO.scala 2KB
AdClickRealTimeStatFunction4.scala 2KB
AdClickRealTimeStatFunction2.scala 2KB
CreateMysqlPool.scala 2KB
AdBlacklistDAO.scala 2KB
UserVisitAction.scala 2KB
SessionAggrStatAccumulator.scala 1KB
SessionDetail.scala 1KB
ConfigurationManager.scala 1KB
DemoMap.scala 1KB
PooledMySqlClientFactory.scala 1019B
package.scala 807B
CategorySoryKey.scala 752B
APP.scala 660B
UserInfo.scala 594B
SessionRandomExtract.scala 587B
AreaTop3Product.scala 555B
ShowDatabasesDemo.scala 507B
DemoJoin.scala 486B
DemoList.scala 405B
Top10Category.scala 361B
AdClickTrend.scala 345B
NumberUtils.scala 341B
AdProvinceTop3.scala 334B
AdStat.scala 319B
ProductInfo.scala 319B
AdUserClickCount.scala 306B
ParamUtils.scala 306B
DemoMkString.scala 304B
Top10Session.scala 299B
AreaTop3ProductApp.scala 194B
QueryCallback.scala 163B
AdBlacklist.scala 119B
PageSplitConvertRate.scala 96B
MyBatisCodeHelperDatasource.xml 9KB
uiDesigner.xml 9KB
pom.xml 5KB
workspace.xml 4KB
hive-site.xml 2KB
dataSources.local.xml 993B
compiler.xml 903B
jarRepositories.xml 870B
Maven__org_glassfish_jersey_containers_jersey_container_servlet_core_2_29_1.xml 744B
Maven__org_apache_hadoop_hadoop_mapreduce_client_jobclient_2_6_5.xml 709B
Maven__org_glassfish_jersey_containers_jersey_container_servlet_2_29_1.xml 709B
Maven__org_apache_directory_server_apacheds_kerberos_codec_2_0_0_M15.xml 707B
Maven__com_fasterxml_jackson_module_jackson_module_scala_2_12_2_10_2.xml 704B
Maven__com_fasterxml_jackson_module_jackson_module_scala_2_11_2_10_2.xml 704B
Maven__org_scala_lang_modules_scala_parser_combinators_2_11_1_1_0.xml 701B
Maven__com_fasterxml_jackson_dataformat_jackson_dataformat_csv_2_10_2.xml 699B
Maven__com_fasterxml_jackson_module_jackson_module_paranamer_2_10_2.xml 697B
Maven__org_apache_hadoop_hadoop_mapreduce_client_shuffle_2_6_5.xml 695B
Maven__org_apache_spark_spark_streaming_kafka_0_10_2_11_2_4_4.xml 691B
Maven__org_apache_hadoop_hadoop_mapreduce_client_common_2_6_5.xml 688B
Maven__com_fasterxml_jackson_datatype_jackson_datatype_jdk8_2_10_2.xml 684B
Maven__org_apache_hadoop_hadoop_mapreduce_client_core_2_6_5.xml 674B
Maven__org_apache_hadoop_hadoop_mapreduce_client_app_2_6_5.xml 667B
Maven__org_apache_calcite_calcite_avatica_1_2_0_incubating.xml 664B
Maven__org_apache_calcite_calcite_linq4j_1_2_0_incubating.xml 657B
Maven__org_apache_spark_spark_network_shuffle_2_11_2_4_4.xml 656B
Maven__com_fasterxml_jackson_core_jackson_annotations_2_10_2.xml 654B
Maven__org_apache_hadoop_hadoop_yarn_server_common_2_6_5.xml 653B
Maven__org_apache_spark_spark_network_common_2_11_2_4_4.xml 649B
Maven__org_spark_project_hive_hive_metastore_1_2_1_spark2.xml 645B
Maven__org_apache_calcite_calcite_core_1_2_0_incubating.xml 643B
Maven__com_typesafe_scala_logging_scala_logging_2_12_3_9_0.xml 640B
Maven__org_glassfish_jersey_media_jersey_media_jaxb_2_29_1.xml 640B
Maven__org_apache_directory_server_apacheds_i18n_2_0_0_M15.xml 637B
Maven__jakarta_validation_jakarta_validation_api_2_0_2.xml 636B
共 277 条
- 1
- 2
- 3
资源评论
爱分享的码瑞哥
- 粉丝: 1237
- 资源: 110
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 质量安全排查报告.docx
- 职业中专技工学校专业评估表.docx
- 质量控制资料核查表:建筑保温工程.docx
- 质量目标统计数据表.docx
- 质量内审方案.docx
- 中国古今地名对照表.docx
- 智力残疾评定标准一览表.docx
- 中央造林补助实施方案小班一览表.docx
- 肘关节功能丧失程度评定表.docx
- 重要神经及血管损伤评定.docx
- 自建房安全整治和农村住房建设考评内容和评分标准.docx
- 走访服务企业登记表.doc
- 智能车开发技术的多领域深度解析及应用
- 西红柿叶片图像目标检测数据【已标注,约700张数据,YOLO 标注格式】
- 蓝桥杯开发技术的全面解析与备赛建议
- 相当于去中心化的QQ版本了
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功