基于 Spark 的
电子书管理数据分析设计与实现
2
一. 项目背景.......................................................................................................................5
二. 项目介绍.......................................................................................................................6
1. 项目概述..............................................................................................................................6
2. 项目功能..............................................................................................................................7
3. 成员分工..............................................................................................................................8
三. 项目设计.......................................................................................................................9
1. 项目功能设计图................................................................................................................11
四. 实现结果.....................................................................................................................13
1. 结果分析............................................................................................................................13
五. 实现技术.....................................................................................................................19
1. SPARK...................................................................................................................................19
2. KAFKA...................................................................................................................................19
3. SCALA ...................................................................................................................................19
4. MYSQL ................................................................................................................................20
5. POWER BI .............................................................................................................................20
六. 总结 ............................................................................................................................20
七. 引用文献.....................................................................................................................20
目录
项目说明
3
一.项目背景
我国电子书市场快速增长,电子书产业收入成为市场增长因素。当前电子书给人们
读取方式与读取习惯带来改变,疫情期间,电子书阅读的快速增长,也再次引发人们对
相关问题的思考。2022 年电子书阅读早已司空见惯,在不少城市早晚高峰的地铁上,
人们可以直观感受到电子书的受欢迎程度。以下对 2022 年电子书行业现状分析。
行业政策利好,加上疫情催生需求,近年来我国电子书行业繁荣发展,市场规模稳步增
长。
在众多数字资源中,68.3%的读者对电子书感兴趣,位居首位。2021 年度深圳图书
馆电子图书全文下载量 1273 万次,期刊论文数据库为 1059 万次,多媒体数据库为 753
万次,位居前三名,可以看出在线电子书、电子期刊非常受欢迎,是读者最喜欢的阅读
资源类型。
在我国成年数字化阅读方式接触者中,60 周岁及以上人群占 7.2%,18—59 周岁人
群占 92.8%。77.4%的成年国民进行过手机阅读,人均每天接触手机时长为 101.12 分钟。
32.7%的成年国民养成了听书的习惯。人均电子书阅读量为 3.30 本。
随着互联网的发展与读屏时代的到来,电子书轻便海量的良好移动式体验受到广大年轻
读者的喜爱。从全球范围看,中国已经成为全球第三大电子书阅读器消费市场,目前国
内市场电子书阅读器厂商主要有 Kindle、掌阅、科大讯飞、汉王等。从全球范围看,中
国已经成为全球第三大电子书阅读器消费市场,预计到 2023 年中国电子书阅读器行业
市场规模将突破 85 亿元。
电子书阅读发展趋势无可阻挡,我国电子书设备企业开始布局海外市场。当前电子
书因运营投入与其他数字业务相比相对简单,且运营模式、市场格局基本成型,此前一
直是出版机构数字业务利润中相对稳定的部分。未来互联网的发展与读屏时代的到来,
2022 年电子书轻便海量的良好移动式体验受到广大年轻读者的喜爱。
4
二.项目介绍
1.项目概述
为了更好了解平台用户的阅读习惯与需求,更好地完善用户与作者的体验,我们收
集了相关的数据,对用户的使用情况以及作者创作情况进行分析。
分析所需数据如下:
(读者 id 图书 id 标签 id 作者 id 作者等级 评分 日期 时间)
分析需求有以下四大模块:
一、统计电子书下载量模块
二、统计评分模块
三、统计用户阅读时间段模块
四、作者管理模块
模块功能图
5
2.项目功能
一、统计电子书下载量模块:
1)实时统计各标签电子书的总点击下载量:
本需求需要明确每个读者点击下载的图书,并将电子书以标签分类并统计
完成,以便于平台发现并分析读者的阅读倾向
2)实时统计各标签中电子书下载量 Top10 的电子书:
本需求要求实时统计以标签为组的下载量前 10 的电子书,用于平台打榜
活动。读者可将喜爱的作者安利给其他读者,作者也将受到激励和鼓励写
作反馈给读者,形成良性循环
二、统计评分模块:
1)实时统计每本电子书的评分:
本需求要求实时更新每本书的评分,基于读者阅读后所给平均值所得,平
台可依据评分高低进行分析,择高进行推送
三、统计用户阅读时间段模块:
1)统计各时间段 0:00-6:00 6:00-12:00 12:00-18:00 18:00-24:00 的在线人数:
本需求统计出读者一天中阅读高峰期,此时人流量大,以便于平台活动进
行推广
四、作者管理模块:
2)统计三个月各等级 Top3 下载量的作者
本需求可分析某三个月点击下载量最高的三名作者,进行季度奖金发放
3)统计每位作者所写电子书的总下载量
本需求要求先得到各电子书的下载量,并将以作者划分并统计,利于选择
合适的作者进行签约
4)统计每个作者各标签电子书的总数
本需求要求知晓各作者所写电子书的标签并加以统计,分析作者写作偏向,
易于系统化管理作者管理
5)按月统计各作者评分
本需求需要按月份统计出各作者评分(所写电子书平均评分)并进行排序,
从而了解当月那位作者的作品最受好评,从而给予一定的平台资源和奖励