【免费】基于K_means算法改进的短文本聚类研究与实现_王俊丰1

需积分: 0 172 浏览量 2022-08-04 16:17:01 上传评论收藏 323KB PDF 举报

资源详情

资源评论

资源推荐

文

章编号

： 1009 － 2552（ 2019） 12 － 0076 － 05 DOI： 10. 13274 /j. cnki. hdzj. 2019. 12. 016

基

于

K-means

算法改进的短文本聚类研究与实现

王

俊丰

，

贾晓霞

，

李志强

（

华北计算技术研究所

，

北

京

100083）

摘要

：

文中讨论在文本类目

数未知的情况下

，

如何对数据量过少的短文本进行有效聚类的问

题

。

短文本的特点是每一份样本文章数据少

，

数据稀疏

，

用常规的聚类方法进行文本聚类不能

取得很好的效果

。

文中提出了一种基于

K-means

的改进算法

，

提出一种简单降维方式和新的判别

样本点距离的方法

，

经实验验证

，

文中改进算法比原

K-means

算法有更高的准确性

。

关键词

：

短文本

； K-means；

聚类

；

无监督

中图分类号

： TP391

文献标识码

： A

Ｒesearch and implementation of short text clustering based

on improved K-means algorithm

WANG Jun-feng，JIA Xiao-xia，LI Zhi-qiang

（ North China Institute of Computer Technology，Beijing 100083，China）

Abstract： The problem of how to effectively cluster short texts with too little data in the case where the

number of text categories is unknown is discussed in the article． The short text is characterized by less

data in each sample article and sparse data． Conventional clustering methods for text clustering cannot

achieve good results． In this paper，a new method based on K-means for discriminating sample point

distance is proposed． Experiments show that the improved algorithm has higher accuracy than the original

k-means algorithm．

Key words： hort text； K-means ； clustering；

unsupervised

收

稿日期

： 2019 － 08 － 26

作者简介

：

王俊丰

（ 1993 －）

，

男

，

硕

士研究生

，

研究方向为自然语言

处理

。

引

言

与

大规模文本数据处理不同

［1］

，

短

文本聚类的

特点是每一份样本中

，

各篇文章数据量过少

，

字数在

100

词左右

；

而整体需要聚类的样本中

，

文章数量也

只有

到

篇

。

由此可见

，

需要处理的数据

，

若以

单词为维度划分标准

，

十几篇文章将产生一个几百

甚至上千维特征

，

而这么多特征下

，

只有十几条对应

的数据

，

由此可见

，

这个初始数据构成是非常稀

疏的

。

在文本类目数未知的情况下

，

对数据量极少的

短文本进行聚类

，

需要处理的问题有两点

：

第一点

，

是需要选择合理的聚类方法对数据进行聚类

；

第二

点

，

是需要确定文本的类目数

。

针对上述数据规模问题和需要解决的问题

，

在

进行了多个试验比对后

，

发现

K-means

［2］

算

法在解

决这个问题上表现最好

，

因此选择了

K-means

算法

来对数据进行聚类

；

在确定文本类目数这个问题上

，

本文选择了斯坦福大学的

Ｒobert

等教授提出的

Gap

Statistic

方法

［3］

，

结

合

K-means

算法完成聚类数目的

确定

。

其中

，

在

K-means

聚类算法上

，

文中设计了一

种类似

One-Hot

［4］

的

编码方法来对文章进行编码

，

并提出了一种新的特征之间距离判断方法和降维方

法

，

提升了聚类的准确性

。

相

关工作

1． 1 K-means

方

法简介

K-means

算法也叫

均值聚类算法

，

是一种通

过迭代求解的聚类分析算法

。

其步骤是先确定需要

—67—

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余4页未读，立即下载

评论收藏

内容反馈

伯特兰·罗卜

粉丝: 22
资源: 309

基于K_means算法改进的短文本聚类研究与实现_王俊丰1

评论0

最新资源

基于K_means算法改进的短文本聚类研究与实现_王俊丰1

评论0

基于改进K_means算法的聚类分析研究

论文研究-结合语义改进的K-means短文本聚类算法.pdf

基于聚类数和初始值的K_means算法改进研究

基于改进K-means算法的电力大数据系统研究

论文研究-基于Storm的K-means算法实现 .pdf

基于K_means的改进人工蜂群聚类算法

基于K_Means和EM算法的聚类分析

基于K-means算法的光伏曲线聚类研究 关键词：k-means 光伏聚类 聚类 参考文档：基于改进 K-means 聚

基于2d-距离改进的K-means聚类算法研究

论文研究-基于MapReduce框架下K-means的改进算法.pdf

毕业设计项目——使用辅助文本信息的短文本聚类算法，基于LDA实现，采用非对称alpha参数.zip

毕业设计项目：使用辅助文本信息的短文本聚类算法，基于LDA实现，采用非对称alpha参数.zip

基于遗传算法的K_MEANS聚类改进研究

kmeansjulei.rar_K._k-means 文本_k_means_聚类 文_聚类算法 VC

DBSCAN聚类.rar_DBSCAN_python算法_密度峰值聚类_密度聚类python_峰值聚类算法

K-means.rar_K means matlab_K 聚类_K均值聚类算法_k均值聚类_向量 聚类

基于K_Means的文本层次聚类算法研究

基于Python的K-means算法实现方式对比研究.zip

alpha-DLDA:毕业设计项目——使用辅助文本信息的短文本聚类算法，基于LDA实现，采用非对称alpha参数

主动半监督K_means聚类算法研究及应用_吕峰.caj_基于K-MEANS_半监督百万级数据师生模型_K._聚类算法_聚类_源

基于改进的并行K_Means算法的电力负荷聚类研究_许元斌1

k_means.zip_K._k均值聚类_聚类_聚类算法_聚类过程

K_means_k-means聚类算法_K._

kmeans_k-means_k-means聚类算法_K._颜色聚类_k_means算法_

最新资源

基于K-means算法的光伏曲线聚类研究关键词：k-means 光伏聚类聚类参考文档：基于改进 K-means 聚

kmeansjulei.rar_K._k-means 文本_k_means_聚类文_聚类算法 VC

K-means.rar_K means matlab_K 聚类_K均值聚类算法_k均值聚类_向量聚类