# 数据挖掘期末项目
#### 项目介绍
项目人:潘丽璇
时间:6月28日-7月4日
目标网站:中国知网
### 数据文件
1、[详情操作文档.ipynb](https://gitee.com/Yuandaorrr/CNKI_qimo/blob/master/%E7%9F%A5%E7%BD%91%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98%E6%9C%9F%E6%9C%AB.ipynb)
2、[pdf文件](https://gitee.com/Yuandaorrr/CNKI_qimo/blob/master/pdf.zip)
3、[refwork](https://gitee.com/Yuandaorrr/CNKI_qimo/tree/master/refworks)
4、[可视化展示](https://gitee.com/Yuandaorrr/CNKI_qimo/tree/master/VOSviewer.png)
5、[表格详情信息](https://gitee.com/Yuandaorrr/CNKI_qimo/blob/master/cnki_webmining.xlsx)
#### 检索目标
对主题=“公众号”并且 篇名=“新媒体”或者 篇名=“平台”的论文进行检索。
**总体围绕新媒体与平台发展与公众号的关系进行检索。**
### 数据价值
* 学习了数据挖掘后,我一直想通过数据来寻找新媒体与平台的发展与公众号的发展存在着什么关系。
* 在公众号主题下,关于新媒体或平台相关篇名的论文研究成果,进行查看及进一步的分析。
* 同时给有需要的人提供一定的参考。
### 过程心得
* 1、使用selenium对中国知网检索数据进行爬取,抓取了页面重要信息如文章的标题、作者、详细页链接及pdf下载链接,并储存到excel方便后续使用。
* 2、为解决下载文章过程中可能会遇到的验证码问题,调用了‘图鉴’图片识别API。
* 3. 对中国知网检索的数据进行refworks文件批量自动下载和检索文章批量自动下载。
* 4. 循环遍历刚刚保存到excel里的pdf下载链接,下载pdf文件。
### 可视化结果展现
* 运用了VOSviewer对抓取下来的数据文件进行数据分析(关键词替换)——数据可视化
![](VOSviewer.png/1.png )
* 展示关于公众号、新媒体、平台等关键词之间的关联
![](VOSviewer.png/2.png )
### 感想
* 本项目基于数据挖掘知识,运用了selenium自动抓取文件信息与下载refworks与pdf文件,调用了图鉴API。在此过程中,学习了API的调用,因为之前没有上过这门课,所以对API的知识一直是不懂的。
* 过程中一直因为网络问题出现bug,好在无数次尝试后终于成功!!!
* 本项目参考了同学的代码,感谢网新宝宝们!也问好多人和寻找了好多资料,不断解决问题。
* 希望我的项目可以给有需要的人参考~
数据挖掘知网期末项目CNKI-qimo-master.zip
需积分: 5 152 浏览量
2024-04-05
11:24:50
上传
评论
收藏 17.45MB ZIP 举报
流华追梦
- 粉丝: 4520
- 资源: 2147
最新资源
- 海尔618算价表_七海5.20_16.00xlsx(1)(2).xlsx
- WebCrawler.scr
- 【计算机专业毕业设计】大学生就业信息管理系统设计源码.zip
- YOLO 数据集:8种路面缺陷病害检测【包含划分好的数据集、类别class文件、数据可视化脚本】
- JAVA实现Modbus RTU或Modbus TCPIP案例.zip
- 基于YOLOv8的FPS TPS AI自动锁定源码+使用步骤说明.zip
- JAVA实现Modbus RTU或Modbus TCPIP案例.zip
- 基于yolov8+streamlit的火灾检测部署源码+模型.zip
- 测试aaaaaaabbbbb
- VID20240521070643.mp4
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈