没有合适的资源?快使用搜索试试~ 我知道了~
利用word2vec对中文词进行聚类的研究_郑文超1
需积分: 0 0 下载量 9 浏览量
2022-08-04
14:40:51
上传
评论
收藏 1.72MB PDF 举报
温馨提示
试读
3页
摘要:文本聚类在数据挖掘和机器学习中发挥着重要的作用,该技术经过多年的发展,已产生了一系列的理论成果。本文在前人研究成果的基础上,探索了一种新的中文聚类方法。本
资源详情
资源评论
资源推荐
160
软件
2013
年第
34
卷 第
12
期
0 引言
在自然语言处理领域
,
中文词聚类算法是被深入研究的课
题
。
由一些属性相近的词组成的词可以看成是单个词语到语意
一般概念的映射
。
词聚类算法对信息检索
,
语音识别等诸多领
域都有使用价值
。
针对英语的研究中各种词聚类算法可以分为
三种
:
第一
,
以各种启发式量度表示聚类过程中的元素的距离
;
第二
,
以统计模型给出距离量度并给定聚类结果的类总数
;
第三
,
同样以统计模型给出距离量度
,
但增加某种量度如困惑度的数
目增长和减少
。
目前
,
针对中文已有一些研究
,
但计算结果似
乎没有英语那么成功
。
本文针对这种现状
,
本文将中文词语看成一系列独立词的
“
词袋模型
”,
这种模型将语言中词语之间的关系做了简化
,
仅仅考虑词语的统计特性
;
之后使用深度神经网络算法将词转
化为 n 维向量
,
它在传统三层神经网络算法的基础上做了延伸
,
将网络从三层扩展到多层
;
最后用 k-mean 算法计算对这些向量
进行聚类
。
本文使用这种方法
,
应用word2vec工具集进行了测试
,
最终
取得了不错的结果
。
1 算法设计
1.1 词袋模型
“
词袋模型
”
是在自然语言处理和信息检索中的一种常见
模型
。
它将文本中出现的词汇
,
想象成放在袋子中的零散而独
立的物品
,
这样一来一个
“
袋子
”
就能代表一份文档
。
在这种
模型中
,
文本
、
段落或者文档都被看作是无序的词汇集合
,
忽
略语法甚至是单词的顺序
。
如果一个词在文档中出现不止一次
,
这可能意味着包含该词是否出现在文档中所不能表达的某种信
息
。
[1]
在应用
“
词袋模型
”
之前
,
我们需要先将一段完整的文本
处理成单个词的序列
,
即对文本进行分词
。
1.2 中文分词
由于中文词之间是不存在明显的间隔的
。
我们设计了一种
方法将连续的中文文本切成一系列词组的方法
。
现有的分词方
法大致可以分为基于词典的匹配
、
基于概率统计的方法和基于
语法规则的方法
。
本文使用的分词方法将词典和基于统计的方
法结合起来
:
首先使用中文词库对原始文本进行过滤
,
如果某
利用 word2vec 对中文词进行聚类的研究
郑文超,徐鹏
(北京邮电大学网络技术研究院,北京 100876)
摘 要:
文本聚类在数据挖掘和机器学习中发挥着重要的作用,该技术经过多年的发展,已产生了一系列的理论成果。本文在
前人研究成果的基础上,探索了一种新的中文聚类方法。本文先提出了一种中文分词算法,用来将中文文本分割成独立的词语。
再对处理后的语料使用 Word2Vec 工具集,应用深度神经网络算法,转化为对应的词向量。最后,将词向量之间的余弦距离定义为
词之间的相似度,通过使用 K-means 聚类算法将获取的词向量进行聚类,最终可以返回语料库中同输入词语语意最接近的词。本
文从网络上抓取了 2012 年的网络新闻数据,应用上述方法进行了实验,取得了不错的实验效果。
关键词:
数据挖掘;聚类;分词;词向量;神经网络
中图分类号:
TP39
文献标识码:
A DOI:10.3969/j.issn.1003-6970.2013.12.040
本文著录格式:
[1] 郑文超 , 徐鹏 . 利用 word2vec 对中文词进行聚类的研究 [J]. 软件 ,2013,34(12): 160-162
Research on Chinese word Clustering with Word2vec
ZHENG Wen-chao,XU Peng
(Beijing University of Posts & Telecommunications Institute of Network Technology, Beijing 100876, China)
【
Abstract
】
Text clustering plays an important role in data mining and machine learning. After years of development, clustering
technology has produced a series of theorey. This paper explored a new method of Chinese clustering. By putting forword a new method to
Chinese word segments, this paper can split Chinese text into word segments. With Word2Vec toolset, we can transfrom word segments into
vectors. To dene the cosine distance between two vectors, we can apply K-means algorithm on the vectors to cluster words. In this paper,
we downloaded network news text on the Internet, and applied the methods above, which shows good result.
【
Key words
】
data mining; clustering; word segment; word vector; neural networks
作者简介:郑文超(1988-),男,硕士研究生,主要研究方向:云计算、信息检索
通信联系人:徐鹏(1977-),男,副教授,主要研究方向:下一代网络、云计算 .
武藏美-伊雯
- 粉丝: 19
- 资源: 352
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0