【免费】基于Word2Vec的一种文档向量表示

需积分: 0 151 浏览量 2022-08-04 14:50:32 上传评论收藏 340KB PDF 举报

资源推荐

资源详情

资源评论

第

４

３

卷

第

６

期

２０１６

年

６

月

计

算机科学

Ｃ

ｏｍ

ｐ

ｕｔｅｒ

Ｓｃｉｅｎｃｅ

Ｖｏｌ．４３Ｎｏ．６

Ｊ

ｕｎｅ

２０１６

到

稿日期

：

２

０１６

－

０

１

－

１

９

返

修日期

：

２

０１６

－

０

４

－

２

０

唐

明

（

１

９７４－

）

，

男

，

硕

士

，

工程师

，

主要研究方向为数据挖掘

，

Ｅ

－

ｍ

ａｉｌ

：

ｔａｎ

ｇ

ｍｉｎ

ｇ

＠

ｓｗｕ．ｅｄｕ．ｃｎ

；

朱

磊

（

１９９２－

）

，

男

，

硕

士生

，

主要研究方向为

机器学习

；

邹显春

（

１

９６５－

）

，

男

，

硕

士

，

副教授

，

主要研究方向为数据挖掘

、

机器学习

。

基

于

Ｗｏｒｄ２Ｖｅｃ

的一种文档向量表示

唐

明

朱

磊

邹

显春

（

西南大学计算机与信息科学学院

重庆

４

００７１５

）

摘

要

在

文本分类中

，

如何运用

ｗｏｒｄ２ｖｅｃ

词向量高效地表达一篇文档一直是一个难点

。

目前

，

将

ｗｏｒｄ２ｖｅｃ

模型与

聚类算法结合形成的

ｄｏｃ２ｖｅｃ

模型能有效地表达文档信息

。

但是

，

这种方法很少考虑单个词对整篇文档的影响力

。

为了解决这个问题

，

利用

ＴＦ

－

Ｉ

ＤＦ

算法计算每篇文档中词的权重

，

并结合

ｗｏｒｄ２ｖｅｃ

词向量生成文档向量

，

最后将其应

用于中文文档分类

。

在搜狗中文语料库上的实验验证了新方法的有效性

。

关键词

ＴＦ

－

Ｉ

ＤＦ

，

ｗｏｒｄ２ｖｅｃ

，

ｄｏｃ２ｖｅｃ

，

文本分类

中图法分类号

ＴＰ１８１

文献标识码

Ａ

ＤＯＩ

１０．１１８９６

／

ｊ

．ｉｓｓｎ．１００２

－

１

３７Ｘ．２０１６．６．０４３

Ｄ

ｏｃｕｍｅｎｔ

Ｖｅｃｔｏｒ

Ｒｅ

ｐ

ｒｅｓｅｎｔａｔｉｏｎ

Ｂａｓｅｄ

ｏｎ

Ｗｏｒｄ２Ｖｅｃ

Ｔ

ＡＮＧ

Ｍｉｎ

ｇ

ＺＨＵ

Ｌｅｉ

ＺＯＵ

Ｘｉａｎ

－

ｃ

ｈｕｎ

（

Ｓ

ｃｈｏｏｌ

ｏｆ

Ｃｏｍ

ｐ

ｕｔｅｒ

ａｎｄ

Ｉｎｆｏｒｍａｔｉｏｎ

Ｓｃｉｅｎｃｅ

，

Ｓｏｕｔｈｗｅｓｔ

Ｕｎｉｖｅｒｓｉｔ

ｙ

，

Ｃｈｏｎ

ｇｑ

ｉｎ

ｇ

４００７１５

，

Ｃｈｉｎａ

）

Ａ

ｂｓｔｒａｃｔ

Ｉｎ

ｔｅｘｔ

ｃｌａｓｓｉｆｉｃａｔｉｏｎ

ｉｓｓｕｅｓ

，

ｉｔ

ｉｓ

ｄｉｆｆｉｃｕｌｔ

ｔｏ

ｅｘ

ｐ

ｒｅｓｓ

ａ

ｄｏｃｕｍｅｎｔ

ｅｆｆｉｃｉｅｎｔｌ

ｙ

ｂ

ｙ

ｔｈｅ

ｗｏｒｄ

ｖｅｃｔｏｒ

ｏｆ

ｗｏｒｄ２ｖｅｃ．Ａｔ

ｐ

ｒｅｓｅｎｔ

，

ｄｏｃ２ｖｅｃ

ｂｕｉｌｔ

ｏｎ

ｔｈｅ

ｃｏｍｂｉｎａｔｉｏｎ

ｏｆ

ｗｏｒｄ２ｖｅｃ

ａｎｄ

ｃｌｕｓｔｅｒｉｎ

ｇ

ａｌ

ｇ

ｏｒｉｔｈｍ

ｃａｎ

ｅｘ

ｐ

ｒｅｓｓ

ｔｈｅ

ｉｎｆｏｒｍａｔｉｏｎ

ｏｆ

ｄｏｃｕｍｅｎｔ

ｖｅｒ

ｙ

ｗｅｌｌ．Ｈｏｗｅｖｅｒ

，

ｔｈｉｓ

ｍｅｔｈｏｄ

ｒａｒｅｌ

ｙ

ｃｏｎｓｉｄｅｒｓ

ａ

ｓｉｎ

ｇ

ｌｅ

ｗｏｒｄ

’

ｓ

ｉｎｆｌｕｅｎｃｅ

ｆｏｒ

ｔｈｅ

ｅｎｔｉｒｅ

ｄｏｃｕｍｅｎｔ．Ｔｏ

ｓｏｌｖｅ

ｔｈｉｓ

ｐ

ｒｏ

－

ｂ

ｌｅｍ

，

ｉｎ

ｔｈｉｓ

ｐ

ａ

ｐ

ｅｒ

，

ＴＦ

－

Ｉ

ＤＦ

ａｌ

ｇ

ｏｒｉｔｈｍ

ｗａｓ

ｕｓｅｄ

ｔｏ

ｃａｌｃｕｌａｔｅ

ｔｈｅ

ｒｉ

ｇ

ｈｔ

ｗｅｉ

ｇ

ｈｔ

ｏｆ

ｗｏｒｄｓ

ｉｎ

ｄｏｃｕｍｅｎｔｓ

，

ａｎｄ

ｗｏｒｄ２ｖｅｃ

ｗａｓ

ｃｏｍｂｉｎｅｄ

ｔｏ

ｇ

ｅｎｅｒａｔｅ

ｄｏｃｕｍｅｎｔ

ｖｅｃｔｏｒｓ

，

ｗｈｉｃｈ

ｗｅｒｅ

ｕｓｅｄ

ｆｏｒ

Ｃｈｉｎｅｓｅ

ｔｅｘｔ

ｃｌａｓｓｉｆｉｃａｔｉｏｎ．Ｅｘ

ｐ

ｅｒｉｍｅｎｔｓ

ｏｎ

ｔｈｅ

Ｓｏ

ｇ

ｏｕ

Ｃｈｉ

－

ｎ

ｅｓｅ

ｃｏｒ

ｐ

ｕｓ

ｌａｂｏｒａｔｏｒ

ｙ

ｄｅｍｏｎｓｔｒａｔｅ

ｔｈｅ

ｅｆｆｉｃｉｅｎｃ

ｙ

ｏｆ

ｔｈｉｓ

ｎｅｗｌ

ｙ

ｐ

ｒｏ

ｐ

ｏｓｅｄ

ａｌ

ｇ

ｏｒｉｔｈｍ．

Ｋｅ

ｙ

ｗｏｒｄｓ

ＴＦ

－

Ｉ

ＤＦ

，

Ｗｏｒｄ２ｖｅｃ

，

Ｄｏｃ２ｖｅｃ

，

Ｔｅｘｔ

ｃｌａｓｓｉｆｉｃａｔｉｏｎ

１

引

言

目

前

，

使用最广泛的文档表示方法几乎都基于词袋法

（

Ｂａ

ｇ

－

ｏ

ｆ

－

Ｗ

ｏｒｄ

，

ＢＯＷ

）

［

１

，

２

］

。

词

袋法将文档看成是一些词的集

合

，

在该集合中

，

每个词的出现是相互独立的

，

且不考虑词的

顺序

、

语法和语义等信息

。

它将一篇文档表示成与训练词汇

集合相同维度的向量

，

向量中每个位置的值即是该位置所代

表的词在文档中出现的次数

，

并且随着新词汇的增加

，

文档向

量维度也会增加

。

虽然词袋法在传统分类器上的分类效果不

错

，

比如目前比较成熟的分类技术

：

回归模型

、

最近邻分类

（

Ｋ

ＮＮ

）、

贝叶斯分类

、

决策树

、

ＲＢＦ

神经网络

、

支持向量机

（

ＳＶＭ

）

等

［

３

－

５

］

，

但

它依旧存在几个主要问题

：

１

）

维度太高

，

文

本向量的维数与训练数据集中出现的所有单词的数目一样

多

，

这样容易出现所谓的

“

维度灾难

”

现象

，

而且如果某一个词

汇在训练集中没有出现过

，

则该词汇在测试集中出现时就无

法成为该文本的特征

；

２

）

一篇普通文档只有

１

０００

个词左右

，

而词向量的维度却能达到

１０

万

，

利用率仅为

１％

，

所以基于

ＢＯＷ

表示的文档向量非常稀疏

，

不利于一些自然语言处理任

务

；

３

）

词袋法无法很好地表示一篇文档的语义

，

它假设词与词

之间相互独立

，

并不考虑词与词之间的关系

，

如

“

土豆

”

与

“

马

铃薯

”

这两个词在用词袋法所表示的文档向量计算相似度时

的值为

０

，

但是我们知道

“

土豆

”

与

“

马铃薯

”

是同一种食物

；

４

）

词袋法很难区分同一个词在不同语境中的意义

，

如

“

先生

”

，

根

据

上下文

，

它可能是对男性的称呼

，

也可能是古代对老师的称

呼

，

但在词袋法中

，

其文档向量计算相似度为

１

。

随着深度学习的发展

［

１

０

，

１１

］

，

基于神经网络的自特征抽取

的词向量表示方法越来越受工业界和学术界的关注

。

基

于前

人的研究

，

Ｍｉｋｏｌｏｖ

等人

［

６

］

在

２

０１３

年提出了

ｗｏｒｄ２ｖｅｃ

模型

［

７

］

用

于计算词向量

（

即下文的

Ｄｉｓｔｒｉｂｕｔｅｄ

Ｒｅ

ｐ

ｒｅｓｅｎｔａｔｉｏｎ

，

后面

均简称为词向量

）。

ｗｏｒｄ２ｖｅｃ

模型利用词的上下文信息将一

个词转化成一个低维实数向量

，

越相似的词在向量空间中越

相近

。

将词向量应用于自然语言处理非常成功

，

已经被广泛

应用于中文分词

［

１

２

，

１３

］

、

Ｐ

ＯＳ

Ｔａ

ｇｇ

ｉｎ

ｇ

［

１

４

］

、

情

感分类

［

１

０

，

１１

，

１５

］

、

句

法

依存分析

［

１

０

，

１６

］

等

。

然而一篇文档由

无数词构成

，

如何利用词向量有效地表

示一篇文档是当前的一个难点

。

目前在这方面的研究进展缓

慢

，

常见的方法有对一篇文档所包含的所有词向量求平均

值

［

１

７

］

、

对

词向量聚类

［

１

８

］

以

及

ｄｏｃ２ｖｅｃ

模型

［

１

９

］

。

但

这些方法

并未重视单个词对整个文档的影响力

。

针对这个问题

，

本文

在

ｗ

ｏｒｄ２ｖｅｃ

的基础上

，

利用

ＴＦ

－

Ｉ

ＤＦ

算法

［

８

］

对每篇文档中的

分

词进行加权

，

并在搜狗中文实验语料库上进行测试

，

测试结

果验证了该方法的有效性

。

４

１２

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余4页未读，立即下载

评论收藏

内容反馈

余青葭

粉丝: 38
资源: 303

基于Word2Vec的一种文档向量表示_唐明1

最新资源

基于Word2Vec的一种文档向量表示_唐明1

基于Word2Vec的一种文档向量表示_唐明.pdf

word2vec_twitter word2vec_twitter_model.bin

word2vec.rar_VEC-361_layers5cb_vec361_word2vec_word2vec 中文

Word2Vec 字词的向量表示法

基于Word2Vec构建多种主题分类模型（贝叶斯、KNN、随机森林、决策树、支持向量机、SGD、逻辑回归、XGBoost...）

word2vec-twitter：Word2Vec 400M Tweets word2vec_twitter_model.bin

dataSet_word2vec训练词向量

基于 word2vec 计算文本相似度的话题聚类研究

wiki_word2vec_50.bin.zip

word2vec词向量训练及中文文本相似度计算 【源码+语料】

Word2vec谷歌词向量

Word2Vec-master_java_word2vec_meanssn7_

基于Word2vec的文档分类

zhiwiki_news.word2vec

基于中文对话文本使用Word2Vec进行训练得到的词向量

基于Word2Vec向量化的新闻分本分类.ipynb

word2vec源码及文档

word2vec词向量入门

word2vec, node2vec, graph2vec, X2vec：构建向量嵌入表示理论

BurpLoaderKeygen.jar.zip

最新版ISO/IEC 27001:2022、ISO 27002:2022中英文合集

Goby红队版-win-x64-2.4.7版本

Chrome Header Editor 插件

ISO SAE 21434-2021 中文版.pdf

OpenVAS GVM 中文翻译补丁

安全认证cisp教材全套

STM32F103C8T6核心板-电路原理图1.PDF

软件工程导论(第六版)课后习题答案1

最新资源

word2vec词向量训练及中文文本相似度计算【源码+语料】