没有合适的资源?快使用搜索试试~ 我知道了~
生产实习 设计文档1
需积分: 0 0 下载量 60 浏览量
2022-08-03
14:27:12
上传
评论
收藏 16.86MB PDF 举报
温馨提示
试读
18页
原理简介:使用 Python 进行聚类的主要步骤主要有:1. 加载语料数据,并将每条数据保存为 list 的元素;TF-IDF 即 term frequency
资源详情
资源评论
资源推荐
⽣产实习
疫情前后⼤学⽣线上学习状况分析
设计⽂档
专 业:
数字媒体技术
课 程 名 称:
生产实习
指 导 老 师:
杨根福
小 组 成 员:
陈睿睿 18221703
沈梦婷 18221709
孟渝桓 18221785
完 成 时 间:
2021 年 7 月 14 日
2 / 18
1.
!"
由于 2020 年疫情的爆发,在线学习成为中国大学生学习的主要方式之一。
为分析疫情前后大学生线上学习体验,给未来线上教学的开展提供相关参考,本设计利用 Python 编程爬虫搜
集微博平台上关于大学生网课的评论,使用 SPSS、机器学习、自然语言处理等方法,对收集到的文本数据进行分
词、数据清洗、词频统计和聚类分析。最后根据所得到的数据进行前端可视化展示以及分析,发现目前在线教学
中学生体验的现状、趋势以及一些待解决的问题。
2.
#$%&'
2.1.
!"
1
#$
原理简介:
爬虫一般指向网站发起请求,获取资源后分析并提取有用数据的程序。其运行过程一般为:模拟浏览器发送
请求(获取网页代码)、提取有用的数据、存放于数据库或文件中。
在本项目中,利用 cookie 实现模拟登录,利用网页版微博的高级搜索接口作为入口,可以实现在微博平台的
关键词爬虫,即搜索并储存带有设定关键词的微博。
步骤:
1. 输入提前注册好的微博账号和密码,设置好需要爬虫的时间范围;
2. 启动爬虫程序,输出结果,形式为 Excel 表格。
由于条件限制,并没有许多微博账号供我们使用,所以在爬虫程序中没有设置账号池,每次模拟登录时只用
了一个账户,导致爬虫速度比较缓慢。考虑到疫情的暴发时间以及大学生的学期课程时间,在本项目中我们分别
爬虫并储存了 2019 年至 2021 年中 1 月至 6 月的 1-5 号的 500 条微博,共计有 45000 条左右的微博平台数据。
部分结果如图所示。
3 / 18
微博评论数据采集示例
另外还有知乎及 Wondrium、Coursera 外国学习平台数据示例如表 2 所示,所有数据总量为 60249 条评论。
Coursera
外国学习平台数据采集示例
2.2.
!"
2
%&'()*+,&-./
原理简介:
2.2.1.
%&
分词是统计词频的必要步骤之一。
我们的最终目的是提取到每条微博数据的关键信息以便以后对搜集到的所有数据做分析,即需要找出每条微
博的关键词。这里使用 jieba 库实现微博文本的分词。jieba 库是一个第三方中文分词库,支持三种分词模式:精
确模式、全模式和搜索引擎模式,这里使用了精确模式,可以将语句精确切分,不存在冗余数据,适合做文本分
析。
2.2.2.
()*+
得到了经过分词的文本数据后,在这时统计词频的话会发现有大量的无用词语,类似于“你的”、“我
的”、“这个”、“那个”等等,所以在统计词频之前还需要经过一个数据清洗的步骤,即删除停用词。
主要方法是:提前创建一个停用词列表“stopwords”,然后遍历每一条经过分词的文本数据,如果句子中有
在停用词列表中的词语,那么将这个词删去。主要步骤如下:
1. 将 2.1 中的爬虫数据按行读入,存在一个 list 中;
2. 创建一个新的临时空字符串,将 list 中的每条文本与停用词列表比较,如果该词不是停用词,那么将此词语添
加到创建的临时字符串中,检查完一条文本后,将此临时字符串输出为清洗后的文本数据。
3. 输出经过清洗的所有文本数据,形式为 txt 文件。
部分清洗结果如图所示:
剩余17页未读,继续阅读
我有多作怪
- 粉丝: 15
- 资源: 298
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0