没有合适的资源?快使用搜索试试~ 我知道了~
基于K_means算法改进的短文本聚类研究与实现_王俊丰1
需积分: 0 0 下载量 172 浏览量
2022-08-04
16:17:01
上传
评论
收藏 323KB PDF 举报
温馨提示
试读
5页
引言与大规模文本数据处理不同[1],短文本聚类的特点是每一份样本中,各篇文章数据量过少,字数在100 词左右;而整体需要聚类的样本中,文章数量也只有 14 到
资源详情
资源评论
资源推荐
文
章编号
: 1009 - 2552( 2019) 12 - 0076 - 05 DOI: 10. 13274 /j. cnki. hdzj. 2019. 12. 016
基
于
K-means
算法改进的短文本聚类研究与实现
王
俊丰
,
贾晓霞
,
李志强
(
华北计算技术研究所
,
北
京
100083)
摘 要
:
文中讨论在文本类目
数未知的情况下
,
如何对数据量过少的短文本进行有效聚类的问
题
。
短文本的特点是每一份样本文章数据少
,
数据稀疏
,
用常规的聚类方法进行文本聚类不能
取得很好的效果
。
文中提出了一种基于
K-means
的改进算法
,
提出一种简单降维方式和新的判别
样本点距离的方法
,
经实验验证
,
文中改进算法比原
K-means
算法有更高的准确性
。
关键词
:
短文本
; K-means;
聚类
;
无监督
中图分类号
: TP391
文献标识码
: A
Research and implementation of short text clustering based
on improved K-means algorithm
WANG Jun-feng,JIA Xiao-xia,LI Zhi-qiang
( North China Institute of Computer Technology,Beijing 100083,China)
Abstract: The problem of how to effectively cluster short texts with too little data in the case where the
number of text categories is unknown is discussed in the article. The short text is characterized by less
data in each sample article and sparse data. Conventional clustering methods for text clustering cannot
achieve good results. In this paper,a new method based on K-means for discriminating sample point
distance is proposed. Experiments show that the improved algorithm has higher accuracy than the original
k-means algorithm.
Key words: hort text; K-means ; clustering;
unsupervised
收
稿日期
: 2019 - 08 - 26
作者简介
:
王俊丰
( 1993 - )
,
男
,
硕
士研究生
,
研究方向为自然语言
处理
。
0
引
言
与
大规模文本数据处理不同
[1]
,
短
文本聚类的
特点是每一份样本中
,
各篇文章数据量过少
,
字数在
100
词左右
;
而整体需要聚类的样本中
,
文章数量也
只有
14
到
24
篇
。
由此可见
,
需要处理的数据
,
若以
单词为维度划分标准
,
十几篇文章将产生一个几百
甚至上千维特征
,
而这么多特征下
,
只有十几条对应
的数据
,
由此可 见
,
这个初始数据构成是非常稀
疏的
。
在文本类目数未知的情况下
,
对数据量极少的
短文本进行聚类
,
需要处理的问题有两点
:
第一点
,
是需要选择合理的聚类方法对数据进行聚类
;
第二
点
,
是需要确定文本的类目数
。
针对上述数据规模问题和需要解决的问题
,
在
进行了多个试验比对后
,
发现
K-means
[2]
算
法在解
决这个问题上表现最好
,
因此选择了
K-means
算法
来对数据进行聚类
;
在确定文本类目数这个问题上
,
本文选择了斯坦福大学的
Robert
等教授提出的
Gap
Statistic
方法
[3]
,
结
合
K-means
算法完成聚类数目的
确定
。
其中
,
在
K-means
聚类算法上
,
文中设计了一
种类似
One-Hot
[4]
的
编码方法来对文章进行编码
,
并提出了一种新的特征之间距离判断方法和降维方
法
,
提升了聚类的准确性
。
1
相
关工作
1. 1 K-means
方
法简介
K-means
算法也叫
K
均值聚类算法
,
是一种通
过迭代求解的聚类分析算法
。
其步骤是先确定需要
—67—
伯特兰·罗卜
- 粉丝: 22
- 资源: 309
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0