没有合适的资源?快使用搜索试试~ 我知道了~
基于Word2Vec的一种文档向量表示_唐明1
需积分: 0 2 下载量 151 浏览量
2022-08-04
14:50:32
上传
评论
收藏 340KB PDF 举报
温馨提示
试读
5页
摘要在文本分类中,如何运用word2vec词向量高效地表达一篇文档一直是一个难点。目前,将 word2vec模型与聚类算法结合形成的doc2vec模型能有效地表
资源推荐
资源详情
资源评论
第
4
3
卷
第
6
期
2016
年
6
月
计
算 机 科 学
C
om
p
uter
Science
Vol.43No.6
J
une
2016
到
稿日期
:
2
016
-
0
1
-
1
9
返
修日期
:
2
016
-
0
4
-
2
0
唐
明
(
1
974-
)
,
男
,
硕
士
,
工程师
,
主要研究方向为数据挖掘
,
E
-
m
ail
:
tan
g
min
g
@
swu.edu.cn
;
朱
磊
(
1992-
)
,
男
,
硕
士生
,
主要研究方向为
机器学习
;
邹显春
(
1
965-
)
,
男
,
硕
士
,
副教授
,
主要研究方向为数据挖掘
、
机器学习
。
基
于
Word2Vec
的一种文档向量表示
唐
明
朱
磊
邹
显春
(
西南大学计算机与信息科学学院
重庆
4
00715
)
摘
要
在
文本分类中
,
如何运用
word2vec
词向量高效地表达一篇文档一直是一个难点
。
目前
,
将
word2vec
模型与
聚类算法结合形成的
doc2vec
模型能有效地表达文档信息
。
但是
,
这种方法很少考虑单个词对整篇文档的影响力
。
为了解决这个问题
,
利用
TF
-
I
DF
算法计算每篇文档中词的权重
,
并结合
word2vec
词向量生成文档向量
,
最后将其应
用于中文文档分类
。
在搜狗中文语料库上的实验验证了新方法的有效性
。
关键词
TF
-
I
DF
,
word2vec
,
doc2vec
,
文本分类
中图法分类号
TP181
文献标识码
A
DOI
10.11896
/
j
.issn.1002
-
1
37X.2016.6.043
D
ocument
Vector
Re
p
resentation
Based
on
Word2Vec
T
ANG
Min
g
ZHU
Lei
ZOU
Xian
-
c
hun
(
S
chool
of
Com
p
uter
and
Information
Science
,
Southwest
Universit
y
,
Chon
gq
in
g
400715
,
China
)
A
bstract
In
text
classification
issues
,
it
is
difficult
to
ex
p
ress
a
document
efficientl
y
b
y
the
word
vector
of
word2vec.At
p
resent
,
doc2vec
built
on
the
combination
of
word2vec
and
clusterin
g
al
g
orithm
can
ex
p
ress
the
information
of
document
ver
y
well.However
,
this
method
rarel
y
considers
a
sin
g
le
word
’
s
influence
for
the
entire
document.To
solve
this
p
ro
-
b
lem
,
in
this
p
a
p
er
,
TF
-
I
DF
al
g
orithm
was
used
to
calculate
the
ri
g
ht
wei
g
ht
of
words
in
documents
,
and
word2vec
was
combined
to
g
enerate
document
vectors
,
which
were
used
for
Chinese
text
classification.Ex
p
eriments
on
the
So
g
ou
Chi
-
n
ese
cor
p
us
laborator
y
demonstrate
the
efficienc
y
of
this
newl
y
p
ro
p
osed
al
g
orithm.
Ke
y
words
TF
-
I
DF
,
Word2vec
,
Doc2vec
,
Text
classification
1
引
言
目
前
,
使用最广泛的文档表示方法几乎都基于词袋法
(
Ba
g
-
o
f
-
W
ord
,
BOW
)
[
1
,
2
]
。
词
袋法将文档看成是一些词的集
合
,
在该集合中
,
每个词的出现是相互独立的
,
且不考虑词的
顺序
、
语法和语义等信息
。
它将一篇文档表示成与训练词汇
集合相同维度的向量
,
向量中每个位置的值即是该位置所代
表的词在文档中出现的次数
,
并且随着新词汇的增加
,
文档向
量维度也会增加
。
虽然词袋法在传统分类器上的分类效果不
错
,
比如目前比较成熟的分类技术
:
回 归 模 型
、
最 近 邻 分 类
(
K
NN
)、
贝叶 斯 分 类
、
决 策 树
、
RBF
神 经 网 络
、
支 持 向 量 机
(
SVM
)
等
[
3
-
5
]
,
但
它依旧存在几个主要问题
:
1
)
维度 太高
,
文
本向量的维数与训练数据集中出现的所有单词的数目一样
多
,
这样容易出现所谓的
“
维度灾难
”
现象
,
而且如果某一个词
汇在训练集中没有出现过
,
则该词汇在测试集中出现时就无
法成为该文本的特征
;
2
)
一篇普通文档只有
1
000
个词左右
,
而词向量的维度 却能达到
10
万
,
利用率 仅为
1%
,
所以 基于
BOW
表示的文档向量非常稀疏
,
不利于一些自然语言处理任
务
;
3
)
词袋法无法很好地表示一篇文档的语义
,
它假设词与词
之间相互独立
,
并不考虑词与词之间的关系
,
如
“
土豆
”
与
“
马
铃薯
”
这两个词在用词袋法所表示的文档向量计算相似度时
的值为
0
,
但是我们知道
“
土豆
”
与
“
马铃薯
”
是同一种食物
;
4
)
词袋法很难区分同一个词在不同语境中的意义
,
如
“
先生
”
,
根
据
上下文
,
它可能是对男性的称呼
,
也可能是古代对老师的称
呼
,
但在词袋法中
,
其文档向量计算相似度为
1
。
随着深度学习的发展
[
1
0
,
11
]
,
基于神经网络的自特征抽取
的词向量表示方法越来越受工业界和学术界的关注
。
基
于前
人的研究
,
Mikolov
等人
[
6
]
在
2
013
年提出了
word2vec
模型
[
7
]
用
于计算词向 量
(
即下 文的
Distributed
Re
p
resentation
,
后面
均简称为词向量
)。
word2vec
模型利用词的上下文信息将一
个词转化成一个低维实数向量
,
越相似的词在向量空间中越
相近
。
将词向量应用于自然语言处理非常成功
,
已经被广泛
应用于中文分词
[
1
2
,
13
]
、
P
OS
Ta
gg
in
g
[
1
4
]
、
情
感分类
[
1
0
,
11
,
15
]
、
句
法
依存分析
[
1
0
,
16
]
等
。
然而一篇文档由
无数词构成
,
如何利用词向量有效地表
示一篇文档是当前的一个难点
。
目前在这方面的研究进展缓
慢
,
常见的方法有对一篇文档所包含的所有词向量求平均
值
[
1
7
]
、
对
词向量 聚类
[
1
8
]
以
及
doc2vec
模 型
[
1
9
]
。
但
这 些 方 法
并未重视单个词对整个文档的影响力
。
针对这个问 题
,
本文
在
w
ord2vec
的基础上
,
利用
TF
-
I
DF
算法
[
8
]
对每篇文档中的
分
词进行加权
,
并在搜狗中文实验语料库上进行测试
,
测试结
果验证了该方法的有效性
。
·
4
12
·
资源评论
余青葭
- 粉丝: 38
- 资源: 303
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功