【免费】利用word2vec对中文词进行聚类的研究_郑文超1_word2vec词向量的维度指的是什么资源-CSDN文库

需积分: 0 9 浏览量 2022-08-04 14:40:51 上传评论收藏 1.72MB PDF 举报

资源详情

资源评论

资源推荐

160

软件

2013

年第

卷第

期

0 引言

在自然语言处理领域

，

中文词聚类算法是被深入研究的课

题

。

由一些属性相近的词组成的词可以看成是单个词语到语意

一般概念的映射

。

词聚类算法对信息检索

，

语音识别等诸多领

域都有使用价值

。

针对英语的研究中各种词聚类算法可以分为

三种

：

第一

，

以各种启发式量度表示聚类过程中的元素的距离

；

第二

，

以统计模型给出距离量度并给定聚类结果的类总数

；

第三

，

同样以统计模型给出距离量度

，

但增加某种量度如困惑度的数

目增长和减少

。

目前

，

针对中文已有一些研究

，

但计算结果似

乎没有英语那么成功

。

本文针对这种现状

，

本文将中文词语看成一系列独立词的

“

词袋模型

”，

这种模型将语言中词语之间的关系做了简化

，

仅仅考虑词语的统计特性

；

之后使用深度神经网络算法将词转

化为 n 维向量

，

它在传统三层神经网络算法的基础上做了延伸

，

将网络从三层扩展到多层

；

最后用 k-mean 算法计算对这些向量

进行聚类

。

本文使用这种方法

，

应用word2vec工具集进行了测试

，

最终

取得了不错的结果

。

1 算法设计

1.1 词袋模型

“

词袋模型

”

是在自然语言处理和信息检索中的一种常见

模型

。

它将文本中出现的词汇

，

想象成放在袋子中的零散而独

立的物品

，

这样一来一个

“

袋子

”

就能代表一份文档

。

在这种

模型中

，

文本

、

段落或者文档都被看作是无序的词汇集合

，

忽

略语法甚至是单词的顺序

。

如果一个词在文档中出现不止一次

，

这可能意味着包含该词是否出现在文档中所不能表达的某种信

息

。

[1]

在应用

“

词袋模型

”

之前

，

我们需要先将一段完整的文本

处理成单个词的序列

，

即对文本进行分词

。

1.2 中文分词

由于中文词之间是不存在明显的间隔的

。

我们设计了一种

方法将连续的中文文本切成一系列词组的方法

。

现有的分词方

法大致可以分为基于词典的匹配

、

基于概率统计的方法和基于

语法规则的方法

。

本文使用的分词方法将词典和基于统计的方

法结合起来

：

首先使用中文词库对原始文本进行过滤

，

如果某

利用 word2vec 对中文词进行聚类的研究

郑文超，徐鹏

（北京邮电大学网络技术研究院，北京 100876）

摘要：

文本聚类在数据挖掘和机器学习中发挥着重要的作用，该技术经过多年的发展，已产生了一系列的理论成果。本文在

前人研究成果的基础上，探索了一种新的中文聚类方法。本文先提出了一种中文分词算法，用来将中文文本分割成独立的词语。

再对处理后的语料使用 Word2Vec 工具集，应用深度神经网络算法，转化为对应的词向量。最后，将词向量之间的余弦距离定义为

词之间的相似度，通过使用 K-means 聚类算法将获取的词向量进行聚类，最终可以返回语料库中同输入词语语意最接近的词。本

文从网络上抓取了 2012 年的网络新闻数据，应用上述方法进行了实验，取得了不错的实验效果。

关键词：

数据挖掘；聚类；分词；词向量；神经网络

中图分类号：

TP39

文献标识码：

A DOI：10.3969/j.issn.1003-6970.2013.12.040

本文著录格式：

[1] 郑文超 , 徐鹏 . 利用 word2vec 对中文词进行聚类的研究 [J]. 软件 ,2013,34(12): 160-162

Research on Chinese word Clustering with Word2vec

ZHENG Wen-chao,XU Peng

(Beijing University of Posts & Telecommunications Institute of Network Technology, Beijing 100876, China)

【

Abstract

】

Text clustering plays an important role in data mining and machine learning. After years of development, clustering

technology has produced a series of theorey. This paper explored a new method of Chinese clustering. By putting forword a new method to

Chinese word segments, this paper can split Chinese text into word segments. With Word2Vec toolset, we can transfrom word segments into

vectors. To dene the cosine distance between two vectors, we can apply K-means algorithm on the vectors to cluster words. In this paper,

we downloaded network news text on the Internet, and applied the methods above, which shows good result.

【

Key words

】

data mining; clustering; word segment; word vector; neural networks

作者简介：郑文超（1988-），男，硕士研究生，主要研究方向：云计算、信息检索

通信联系人：徐鹏（1977-），男，副教授，主要研究方向：下一代网络、云计算 .

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余2页未读，立即下载

评论收藏

内容反馈

武藏美-伊雯

粉丝: 19
资源: 352

利用word2vec对中文词进行聚类的研究_郑文超1

评论0

最新资源

利用word2vec对中文词进行聚类的研究_郑文超1

评论0

基于 word2vec 计算文本相似度的话题聚类研究

word2vec.rar_VEC-361_layers5cb_vec361_word2vec_word2vec 中文

基于LDA模型和Doc2vec的学术摘要聚类方法_张卫卫.caj

word2vec_twitter word2vec_twitter_model.bin

word2vec-twitter：Word2Vec 400M Tweets word2vec_twitter_model.bin

wiki_word2vec_50.bin.zip

word2vec词向量训练及中文文本相似度计算 【源码+语料】

word2vec+LSTM_Mini.rar

Word2VEC_java-master.zip_java word2vec_word2vec_word2vec java

基于Word2Vec的一种文档向量表示_唐明.pdf

人工智能-项目实践-聚类-利用Python实现中文文本关键词抽取，分别采用TF-IDF、TextRank、Word2Vec词聚

visual-word2vec:Word2Vec +主成分分析+聚类，用于一组单词或组合MWE的低维语义表示

zhiwiki_news.word2vec

Word2Vec-master_java_word2vec_meanssn7_

word2vec_wiki.model.rar

word2vec词向量训练及中文文本相似度计算

word2vec数学原理

基于Word2Vec词嵌入和聚类模型的安全生产事故文本案例分类

dataSet_word2vec训练词向量

最新版ISO/IEC 27001:2022、ISO 27002:2022中英文合集

Goby红队版-win-x64-2.4.7版本

Chrome Header Editor 插件

ISO SAE 21434-2021 中文版.pdf

HCL.AppScan.Standard v10.5.0

安全认证cisp教材全套

OpenVAS GVM 中文翻译补丁

2024最新：Hvv中常见的面试问题

密码编码学与网络安全-原理与实践 第八版 习题答案1-10章 英文版

最新资源

word2vec词向量训练及中文文本相似度计算【源码+语料】

密码编码学与网络安全-原理与实践第八版习题答案1-10章英文版