本科生毕业论文(设计)
题目:基于自媒体数据的人群聚类分析
系 名:电气与计算机工程学院
专 业:计算机科学与技术
学 号:182017340
姓 名:李启尉
指导教师:张继国教授
二
○
二一 年 十二 月
装
订
线
中山大学南方学院
中山大学南方学院 2021 届本科生毕业论文(设计)
I
摘 要
伴随互联网技术的快速发展与广泛应用,自媒体已经对人们的生活产生日益显著
的影响,渐渐变成人们获取信息与分享观点的核心平台,强化信息传播效率,拉
近人们之间的距离感,在更大化层面上对人们生活产生便捷性。本文在分析时选
择基于自媒体数据下的人群聚类研究模式,其中目前主流的自媒体就是微博,微
博作为⼀种快速便捷的信息传播载体,发挥着重要的信息传输作⽤。以 2020 年
来疫情爆发,在线学习成为中国大学生学习的主要方式之一。本次论文的⽬的就
是深⼊分析疫情前后大学生线上学习体验及其变化情况为例,做自媒体数据的人
群聚类分析,给未来线上教学的开展提供相关参考,本设计利用
Python
编程爬
虫搜集微博平台上关于大学生网课的评论,使用 SPSS、机器学习、自然语言处
理等方法,对收集到的文本数据进行分词、数据清洗、词频统计和聚类分析。最
后根据所得到的数据进行前端可视化展示以及分析,发现目前在线教学中学生体
验的现状、趋势以及一些待解决的问题。
关键词:自媒体数据;聚类分析;Python;用户特征;SPSS;机器学习
中山大学南方学院 2021 届本科生毕业论文(设计)
II
ABSTRACT
With the rapid development and wide application of Internet technology, we
media has had an increasingly significant impact on people's lives. It has gradually
become the core platform for people to obtain information and share views,
strengthen the efficiency of information dissemination, shorten the sense of distance
between people, and bring convenience to people's lives on a greater level. In the
analysis, this paper selects the crowd clustering research mode based on we media
data. At present, the mainstream we media is microblog. As a fast and convenient
information transmission carrier, microblog plays an important role in information
transmission. With the outbreak of the epidemic in 2020, online learning has become
one of the main ways for Chinese college students to learn. The purpose of this paper
is to deeply analyze the online learning experience and changes of college students
before and after the epidemic, for example, to do the crowd clustering analysis of self
media data, so as to provide relevant reference for the development of online teaching
in the future. This design uses Python Programming crawler to collect comments on
College Students' online classes on the microblog platform, and uses SPSS, machine
learning, natural language processing and other methods to segment, clean and Word
frequency statistics and cluster analysis. Finally, the front-end visual display and
analysis are carried out according to the obtained data, and the current situation, trend
and some problems to be solved of students' experience in online teaching are found.
Key words: Self media data; Cluster analysis; Python
;
User characteristics; SPSS
;
machine learning
中山大学南方学院 2021 届本科生毕业论文(设计)
III
目 录
摘 要
............................................................................................................................ I
ABSTRACT ..................................................................................................................II
第 1 章 引言............................................................................................................... 1
1.1 研究背景及意义 ................................................................................................ 1
1.2
研究现状
............................................................................................................ 1
第
2
章 相关技术介绍
............................................................................................... 4
2.1 Jieba 分词 ............................................................................................................ 4
2.2 LDA 主题模型 .................................................................................................... 5
2.3 特征融合 ............................................................................................................ 7
2.4 聚类分析 ............................................................................................................ 8
第
3
章 应用分析
..................................................................................................... 10
3.1
用户统计特征
.................................................................................................. 10
3.2 用户行为特征 .................................................................................................. 13
第 4 章 实验分析..................................................................................................... 21
4.1
实验数据集
...................................................................................................... 21
4.2
实验与结果
...................................................................................................... 21
结 论......................................................................................................................... 25
致 谢 ......................................................................................................................... 28
参考文献
..................................................................................................................... 29
中山大学南方学院 2021 届本科生毕业论文(设计)
1
第 1 章 引言
1.1 研究背景及意义
新冠肺炎病毒于 2020 年 1⽉⼤规模爆发,虽然现代医疗科技发展迅速,但⼈类
依然⽆法避免类似的⼤规模突发 性公共卫⽣事件的困扰,可能在未来的很⻓⼀段时
间内,⼤型传染性疾病依然⽆法彻底消除,⼈类将与病毒进⾏⻓期的抗争。突发卫
⽣事件的突然性和危害性、新冠病毒的感染数和致死率等严重影响大学生正常的学
习,⼀种疫情下独特的大学生在家上网课授课形式就此形成,并且目前还在延续。
伴随互联网技术的快速发展与广泛应用,自媒体已经对人们的生活产生日益显著的
影响,渐渐变成人们获取信息与分享观点的核心平台,强化信息传播效率,拉近人
们之间的距离感,在更大化层面上对人们生活产生便捷性。人们平时生活和社交网
络间有着更加紧密的关联性,社交网络已经成为人们日常生活必需的应用场景。以
微博为代表的社交媒体上⼴泛的传播各种疫情信息,学生发布的疫情相关短⽂本可
以使⽤官⽅搜索引擎获取;此外,代表着官⽅媒体的央视新闻和⼈⺠⽇报等账号号
通过微博发布了⼤量的疫情线上上课信息,同时微博的评论功能使得⽹友可以发表
⾃⼰对于新闻的看法,这为我们数据分析提供了必要的数据源⽀持。我们分析疫情
前后大学生线上学习体验,也可以给未来线上教学的开展提供相关参考。
1.2 研究现状
用户画像是要给目标用户展开描述表示的相关模型,将用户属性信息、兴趣喜
好信息以及行为习惯信息等进行形式化与抽象化的处理,由此完成对用户目标的标
签化模型建立。用户画像有着广泛的应用领域,譬如在包括用户群体精准定位使用
范畴、用户个性化服务使用范畴、广告推送使用范畴以及网络舆情治理使用范畴等,
都是有着重要的理论分析意义以及实践价值。用户画像涵盖基于兴趣偏好研究方式、
行为研究方式,主题研究方式以及人格情绪研究方式等。参考分析对象的差异性,
能够将用户画像概括为个体类型与群体类型等。如果以用户个体画像为角度进行分
析可以得知,杨玉成,张乾,邵定琴等(2021)收集自媒体用户的粉丝数信息、关
注数信息、自媒体数信息以及自媒体开通时长信息等,选择
K-Means
聚类算法进行
研究后获取用户类型标签信息,这是要把自媒体用户划分成如下所述的几个种类:
- 1
- 2
- 3
- 4
前往页