毕业设计：互联网新闻热点抽取系统.zip资源-CSDN文库

共14个文件

py：8个

txt：2个

gif：1个

版权申诉

198 浏览量 2023-12-27 13:59:08 上传评论收藏 316KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

毕业设计：互联网新闻热点抽取系统.zip （14个子文件）

folder

Graduation-Project-master

1.py 3KB

tfidf-kmeans.py 4KB

cccctoutiao.py 3KB

wordcount.py 3KB

welcome.gif 77KB

1.png 259KB

catch.py 3KB

fenci.py 1KB

window.py 2KB

dict_news.txt 1KB

README.md 1KB

stopwords.txt 13KB

coppy.py 966B

geckodriver.log 33KB

# 毕业设计：互联网新闻热点抽取系统对于今日头条网页进行新闻标题抓取，分词向量化后进行文本聚类。（仅涉及针对标题聚类，新闻内容功能暂未实现）通过对新闻标题信息的抓取、预处理、特征提取等，提取中文分词后的关键短语，并利用对关键词的词频统计和排序，将向量化的标题信息进行聚类，最终得到相应的热点新闻话题。课题研究的主要工作包括以下几点：（1）基于Python语言，利用Selenium模拟普通浏览用户的方式进行网络爬虫，抓取相应的新闻数据信息，并保存到本地。（2）针对抓取出的数据进行中文分词，采用jieba分词对新闻标题进行切分，同时引入预设的字典以及停用词表配合分词筛选。（3）对于分词后的数据信息进行词频统计，采用TF-IDF词频统计方法，将结果保存到本地。同时输出纯词频个数统计并保存。（4）利用词频数据对文本信息进行向量化，建立数据矩阵，并保存。（5）采用k-means聚类算法，对数据矩阵进行聚类，将处理结果与原始文本信息进行合并处理，并输出聚类结果。（6）输出最大类簇，即热点类簇，并统计系统准确率与召回率。

内容反馈

版权申诉

马coder

粉丝: 1261
资源: 6594

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip