没有合适的资源?快使用搜索试试~ 我知道了~
微博文本的句向量表示及相似度计算方法研究_段旭磊1
需积分: 0 1 下载量 189 浏览量
2022-08-04
12:17:34
上传
评论
收藏 386KB PDF 举报
温馨提示
试读
6页
收稿日期: 2016-07-04修回日期: 2016-08-15微博文本的句向量表示及相似度计算方法研究段旭磊,张仰森,孙祎卓( 北京信息科技大学 智能信息处理
资源详情
资源评论
资源推荐
第
43
卷 第
5
期
Vol. 43 No. 5
计 算 机 工 程
Computer Engineering
2017
年
5
月
May 2017
·
人工智能及识别技术
·
文章编号
: 1000-3428( 2017) 05-0143-06
文献标志码
: A
中图分类号
: TP391
基金项目
:
国家自然科学基金
( 61370139) ;
北京市属高等学校创新团队建设与教师职业发展计划项目
( IDHT20130519) 。
作者简介
:
段旭磊
( 1991—) ,
男
,
硕士研究生
,
主研方向为中文信息处理
、
数据挖掘
、
机器学习
;
张仰森
(
通信作者
) ,
教授
、
博士后
;
孙祎卓
,
硕士研究生
。
收稿日期
: 2016-07-04
修回日期
: 2016-08-15 E-mail: zys@ bistu. e du. cn
微博文本的句向量表示及相似度计算方法研究
段旭磊
,
张仰森
,
孙祎卓
(
北京信息科技大学 智能信息处理研究所
,
北京
100192)
摘 要
:
在
Word2vec
框架内
,
针对微博文本的特点
,
提出采用词向量或高维词库映射计算句向量的方法
。
以
3
种
算法构造句向量
,
即采用
Word2vec
对微博文本进行扩展后以
TF -IDF
方法表示句向量
;
将句子中每个词的词向量
相加形成句向量
;
构建高维词库
,
将句子中的每个词映射到高维词库形成句向量
。
对比
3
种训练句向量的方法
,
选
出最适合微博领域的模型
。
实验结果表明
,
采用高维词库映射的方法对微博的句向量计算的效果最佳
。
关键词
:
微博文本
;
相似度计算
;
词向量
;
高维词库
;
句向量
中文引用格式
:
段旭磊
,
张仰森
,
孙祎卓
.
微博文本的句向量表示及相似度计算方法研究
[J].
计算机工程
,2017,
43( 5) : 143-148.
英文引用格式
: Duan Xulei,Zhang Yangsen,Sun Yizhuo. Research on Sentence Vector Representation and Similarity
Calculati on Method About Microblog Texts[J]. Computer Engineering,2017,43( 5) : 143-148.
Research on Sentence Vector Representation and Similarity
Calculation Method About Microblog Texts
DUAN Xulei,ZHANG Yangsen,SUN Yizhuo
( Institute of Intelligence Information Processing,Beijing Information Science and Technology University,B eijing 100192,China)
【Abstract】In Word2vec framework,aiming at the feature of Microblog text,this paper proposes the method using word
vector or sentence vector of high dimension word database mapping calculation,and constructs sentence vector using three
algorithms: Using Word2vec to expand text,and TF-IDF to obtain sentence vector. Adding the word vectors into sentence
vector; Bui lding a word bank to obtain high dimension vector space for the sentence. Through comparing the three
methods,it selects the model fitting Microblog field. Experimental results show that the sentence vector calculation
method using high dimension word database mapping is t he best.
【Key words】Microblog texts; similarity calculation; word vector; high dimension word database; sentence vector
DOI: 10. 3969 /j. issn. 1000-3428. 2017. 05. 023
0
概述
微博文本作为典型的短文本
,
其文本长度一般
不超过
140
字
,
并且微博文本具有很强的随意性
,
大
部分微博文本呈现碎片化表达
,
很多微博仅有几个
字到十几个字
,
甚至有些微博只有几个表情或标点
符号
,
比如
“ ”、“…”
等
。
另外
,
微博中存在大量新
词和网络用语
,
在不了解发布者心情或者上下文的
情况下
,
大部分微博是无法理解的
,
给微博处理带来
很大难度
。
因此
,
微博文本与传统媒体文本的处理
方法之间有着较大的区别
。
与此同时
,
作为新媒体
短文本的代表
,
微博文本中蕴含着巨大的研究价值
和商业价值
,
有必要对微博文本的处理方法进行深
入研究
。
Word2vec
[1-2]
是一个将词语转换成词向量的工
具
,
不同于传统的向量空间模型
( Vector Space
Model,VSM) ,
其使用的是
Distributed Representation
的词向量表示方式
。
它把对文本内容的处理简化为
向量空间中的向量运算
,
并通过计算向量空间上的
相似度来表示文本语义上的相似度
,
极大地提高了
效率
。
在大量的短文本实验中
,Word2vec
表现出了
优秀的处理能力
,
可以为短文本数据寻求更加深层
次的特征表示
。Word2vec
训练后的词向量可以处
理很多自然语言的工作
,
如分类
、
聚类
、
求同义词
、
词
UEgood雪姐姐
- 粉丝: 31
- 资源: 319
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0