机器学习课程设计针对热点新闻的DBSCAN聚类模型识别预测报告

共37个文件

txt：11个

csv：11个

jpg：7个

机器学习

聚类

课程设计

预测模型

30 浏览量 2023-07-06 00:50:00 上传评论 7 收藏 24.86MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

机器学习大作业.zip （37个子文件）

针对热点新闻的DBSCAN聚类模型识别预测报告.docx 1.05MB

代码

data

extra_dict

self_disambiguation_dict.json 227B

self_userdict.txt 1KB

document_segment.txt 657KB

reply_segment.txt 46KB

self_stop_words.txt 17KB

self_individual_character_dict.txt 3B

news

news_df.csv 612KB

sina_latest_news.csv 8KB

xinhuanet_latest_news.csv 410KB

sohu_latest_news.csv 76KB

data.csv 607KB

models

reply_word2vec_model.pkl 3.12MB

word2vec_model.pkl 20.97MB

texts

hot_titles.txt 98B

word_library.txt 119KB

document_segment.txt 657KB

top_words.txt 365B

cluster_i_words.txt 1KB

similar_words.txt 3KB

images

2.jpg 31KB

1.jpg 18KB

3.jpg 23KB

temp_news

filter_news_by_time.csv 613KB

news_cut.csv 1.38MB

filter_news.csv 612KB

results

word_df.csv 96KB

news_label.csv 1.39MB

news_non_outliers.csv 69KB

热点聚类.ipynb 186KB

result.xls 174KB

img

2.jpg 188KB

1.png 13KB

0.jpg 118KB

3.jpg 182KB

4.jpg 67KB

.ipynb_checkpoints

热点聚类-checkpoint.ipynb 186KB

针对热点新闻的 DBSCAN 聚

类模型识别预测报告

实验题目：针对热点新闻的 DBSCAN 聚类模型识别预测报告

班级：

学号：

姓名：

日期：

摘要

针对目前互联网“富信息化”现象，提出了基于机器学习的网络热点话题预

测的思想。该思想通过总结能尽量准确描述热点话题的一组特征，得到每篇新闻

各自的特征向量，并针对大量近期已知是否热门的随机新闻样本内容进行聚类处

理。

A machine learning based approach for predicting hot topics on the

internet is proposed to address the current phenomenon of "rich

informatization" in the internet. This idea summarizes a set of features

that can accurately describe hot topics as much as possible, obtains each

news feature vector, and performs clustering processing on a large number

of randomly selected news samples that are known to be popular recently.

关键词

机器学习聚类分析热点话题

一、实验背景

互联网信息发布的便利性使得大众每天面对爆炸性增长的信息冲击，大量文

本及文本信息在丰富大众生活的同时，也给用户带来了困扰。人们在获取固定信

息的同时，往往希望获取特定领域的流行信息。为满足人们的这种需求，互联网

新闻给出了相应的对策，如订阅热门话题、热门新闻上首页等措施。这些虽然在

一定程度上解决了上述需求，但热门信息的排序仍然需要人工手动添加完成，从

时间成本和人工成本上来说都十分浪费，并且用户也无法及时得到最新的热门资

讯。

为此，提出了基于机器学习的网络热点话题预测方法，该方法可以有效地满

足互联网用户的上述需求，并帮助新闻工作者有效减少工作量。利用机器学习带

来的便利性，不仅可以快速分类出热门新闻话题，并且可以做到按热门排序，这

样既能方便用户快速聚焦社会生活中的热门话题，同时也能帮助网页新闻工作者

大量减少因为排序而带来的简单重复的工作量。

在国际上，热门话题的发掘工作层出不穷。彭菲菲等人针对信息冗余等现象

提出了资源整合方法，对热点话题发现的关键技术做了一些改进

[1]

；王巍等人

针对Chen Kuan新闻报道侧重点的变化提出了基于多中心模型的热点话题发现算

法

[2]

；赖锦辉等人针对微博中孤立点较多的现象提出了消除孤立点的微博热点

话题发现方法，消除孤立点再用 CURE 算法聚类，效果较好，但仅针对特征明显

的微博进行研究

[3]

；基于微博进行了负面新闻的早期预测研究工作

[4]

，由于微

博特有的转发量、点赞数等多维度为其研究成果在其他领域的应用带来了一定的

局限性

[5]

。除了以上学术界的相关工作研究，商业领域也存在许多热点话题资

讯系统，比如常用的谷歌手机软件 Google Currents2.0 在最近的更新中就特别

加入了 Breaking Stories 版块

[6]

。总结以上研究成果，国内外仍没有很好的热

点话题预测研究，有的侧重点在挖掘而不在预测，有的着眼于预测却不具有很好

的扩展性。

本文提出一种实用性广、可预测性强的热点话题预测方法，总结出一组能尽

量准确描述热点话题特征，得到每篇新闻各自的特征向量，然后基于这组特征对

大量近期随机已知是否热门的样本新闻文本内容进行聚类处理，利用支持向量机

对数据进行分类。由于机器学习是一个需要反复修改的过程，该方法的另一个研

究重点就是在大量试验中修改并完善特征向量的组成、度量以及权重，最终希望

能达到准确作出热点话题分类即预测的目的。

二、原理方法

基于健壮精准的分类算法，利用支持向量机将向量映射到高维空间达到分类

目的。在机器学习过程中，采用大量试验的方法修改并完善特征向量的组成、度

量及权重，最终达到准确作出热点话题预测的目的。

（1）原理结构图

新闻热点预测结构图

根据互联网数据挖掘技术和已有的新闻话题预测模型，得到上图所示的整体

设计结构图。该结构图主要由数据挖掘器、特征提取器以及分类器 3 部分构成。

从第三步训练结果→支持→测试结果→反馈→特征提取器可以看出，该步骤

是一个不断循环的过程，目的在于根据测试结果不断调整特征值，直到达到满意

的效果。

由于步骤模块化，该结构设计可应对多种不同需求的话题预测，支持不同新

闻网站、不同类别下新闻预测以及热点或非热点的新闻话题预测。

（2）特征提取

关键词模式匹配技术简介

模式（Schema）是指按照某种结构组织起来的多个元素的集合，模式匹配是

指将两个模式作为输入，计算模式元素之间语义上的对应关系的过程

[7]

。本文

中特征向量中的两个元素——知名度和敏感度，需要计算新闻文章中出现的名人

数或敏感词的个数，为了实现这一计算，故选用模式匹配技术。由于热点话题的

特点，在新闻话题预测中不需要找出具体匹配位置。

2.1 知名度。

建立名人库

[8]

，匹配新闻，若出现词库中人名则该特征记为 1，否则记为

0。

　　famous=0（初始值）（1）

2.2 敏感度。

建立敏感词词库（如 explosion，death 等），新闻标题及内容中出现的敏

感词次数记为 a，敏感词库总次数为 b，定义敏感度为 a/b（0-1）。

　　Sensitivity=a/b（2）

2.3 文本长度。

新闻正文长度过长或过短都会影响其热度，首先设定该长度阈值为 500，该

值根据实验测试结果不断调整。

　　Length=500（初始值）（3）

2.4 时效性。

当前时间与发表时间求差，差值 x 以 24 为阈值。

2.5 生动性。

统计一篇新闻的形容词个数 m 占整篇新闻词数 n 的比例（0~1），比例高者

权重高，新闻话题热度更高。

　　Vivid=m/n（5）

（3）分类器问题

3.1 支持向量机技术简介

支持向量机（Support Vector Machine）是 Cortes 和 Vapnik 于 1995 年首先

提出的，它的原理是寻找一个最优的分类超平面，在保证精度的同时能够使平面

两侧的空白做到最大化，所以理论上来说支持向量机可以实现线性数据的最优分

类

[9]

。上文提到的特征向量就是一组可分的线性数据，故选用支持向量机技术。

3.2 机器学习技术简介

机器学习就是让机器来模拟人类的学习功能，是一门研究怎样用机器来模拟

或实现人类学习活动的学科，要使计算机具有某种学习能力，就需要为其建立相

应的学习系统。本文背景下的学习系统基本模型如图 2 所示。

评论收藏

内容反馈

追风少年在远方

粉丝: 3
资源: 10

机器学习课程设计 针对热点新闻的DBSCAN聚类模型识别预测报告

聚类算法DBSCAN的实现

基于python实现DBSCAN聚类算法详细代码

k均值、合并聚类和DBSCAN聚类算法对鸢尾花数据集聚类代码.zip

dbscan_DBSCAN_dbscan聚类_密度聚类_算法_dbscanmatlab_

DBSCAN聚类.rar_DBSCAN_python算法_密度峰值聚类_密度聚类python_峰值聚类算法

DBSCAN聚类算法

DBSCAN聚类算法原理详细讲解、演算示例、Python实现

三种聚类方法(K-means、GMM、DBSCAN聚类)

包含KMeans、DBSCAN、LDA和Single_Pass的文本聚类算法程序（python实现）课设

DBSCAN算法实践（基于Python实现，非调用sklearn库）

基于python实现的机器学习预测系统汇总+GUI界面(贝叶斯网络、马尔科夫模型、线性回归、岭回归多项式回归、决策树等).zip

java实现聚类算法，Kmeans

机器学习理论到实践-聚类模型汇总-理论解析

DBSCAN算法的基本原理及实现-dbscan.zip

密度聚类dbscan算法—python代码实现（含二维三维案例、截图、说明手册等）

【机器学习-聚类】网购人群购买意图分析

数据预测、分类、聚类系统

机器学习入门 — K-means、DBSCAN聚类算法（概念、图解、代码示例）

C++结合OpenCV实现Kmeans聚类图像分割的案列

ChatGPT教程（终极版）最全整理

博客中Kmeans以及FCM算法数据（免积分）

hugging face的models-openai-clip-vit-large-patch14文件夹

神经网络回归预测--气温数据集

XGBoost+LightGBM+LSTM-光伏发电量预测

Mathwork+Matlab+编程手册

中文短信数据集-带标签

Stable-Diffusion WEBUI 简体中文语言包（2023.05.30更新）

时间序列预测模型实战案例(Xgboost)(Python)(机器学习)包括时间序列预测和时间序列分类，点击即可运行！

亚博K210模型训练部署

最新资源

机器学习课程设计针对热点新闻的DBSCAN聚类模型识别预测报告