【免费】微博文本的句向量表示及相似度计算方法研究_段旭磊1

需积分: 0 189 浏览量 2022-08-04 12:17:34 上传评论收藏 386KB PDF 举报

资源详情

资源评论

资源推荐

第

卷第

期

Vol． 43 No． 5

计算机工程

Computer Engineering

2017

年

月

May 2017

人工智能及识别技术

文章编号

： 1000-3428（ 2017） 05-0143-06

文献标志码

： A

中图分类号

： TP391

基金项目

：

国家自然科学基金

（ 61370139）；

北京市属高等学校创新团队建设与教师职业发展计划项目

（ IDHT20130519）。

作者简介

：

段旭磊

（ 1991—），

男

，

硕士研究生

，

主研方向为中文信息处理

、

数据挖掘

、

机器学习

；

张仰森

（

通信作者

），

教授

、

博士后

；

孙祎卓

，

硕士研究生

。

收稿日期

： 2016-07-04

修回日期

： 2016-08-15 E-mail： zys@ bistu． e du． cn

微博文本的句向量表示及相似度计算方法研究

段旭磊

，

张仰森

，

孙祎卓

（

北京信息科技大学智能信息处理研究所

，

北京

100192）

摘要

：

在

Word2vec

框架内

，

针对微博文本的特点

，

提出采用词向量或高维词库映射计算句向量的方法

。

以

种

算法构造句向量

，

即采用

Word2vec

对微博文本进行扩展后以

TF -IDF

方法表示句向量

；

将句子中每个词的词向量

相加形成句向量

；

构建高维词库

，

将句子中的每个词映射到高维词库形成句向量

。

对比

种训练句向量的方法

，

选

出最适合微博领域的模型

。

实验结果表明

，

采用高维词库映射的方法对微博的句向量计算的效果最佳

。

关键词

：

微博文本

；

相似度计算

；

词向量

；

高维词库

；

句向量

中文引用格式

：

段旭磊

，

张仰森

，

孙祎卓

．

微博文本的句向量表示及相似度计算方法研究

［J］．

计算机工程

，2017，

43（ 5）： 143-148．

英文引用格式

： Duan Xulei，Zhang Yangsen，Sun Yizhuo．Ｒesearch on Sentence Vector Ｒepresentation and Similarity

Calculati on Method About Microblog Texts［J］． Computer Engineering，2017，43（ 5）： 143-148．

Ｒesearch on Sentence Vector Ｒepresentation and Similarity

Calculation Method About Microblog Texts

DUAN Xulei，ZHANG Yangsen，SUN Yizhuo

（ Institute of Intelligence Information Processing，Beijing Information Science and Technology University，B eijing 100192，China）

【Abstract】In Word2vec framework，aiming at the feature of Microblog text，this paper proposes the method using word

vector or sentence vector of high dimension word database mapping calculation，and constructs sentence vector using three

algorithms： Using Word2vec to expand text，and TF-IDF to obtain sentence vector． Adding the word vectors into sentence

vector； Bui lding a word bank to obtain high dimension vector space for the sentence． Through comparing the three

methods，it selects the model fitting Microblog field． Experimental results show that the sentence vector calculation

method using high dimension word database mapping is t he best．

【Key words】Microblog texts； similarity calculation； word vector； high dimension word database； sentence vector

DOI： 10． 3969 /j． issn． 1000-3428． 2017． 05． 023

概述

微博文本作为典型的短文本

，

其文本长度一般

不超过

140

字

，

并且微博文本具有很强的随意性

，

大

部分微博文本呈现碎片化表达

，

很多微博仅有几个

字到十几个字

，

甚至有些微博只有几个表情或标点

符号

，

比如

“ ”、“…”

等

。

另外

，

微博中存在大量新

词和网络用语

，

在不了解发布者心情或者上下文的

情况下

，

大部分微博是无法理解的

，

给微博处理带来

很大难度

。

因此

，

微博文本与传统媒体文本的处理

方法之间有着较大的区别

。

与此同时

，

作为新媒体

短文本的代表

，

微博文本中蕴含着巨大的研究价值

和商业价值

，

有必要对微博文本的处理方法进行深

入研究

。

Word2vec

［1-2］

是一个将词语转换成词向量的工

具

，

不同于传统的向量空间模型

（ Vector Space

Model，VSM），

其使用的是

Distributed Ｒepresentation

的词向量表示方式

。

它把对文本内容的处理简化为

向量空间中的向量运算

，

并通过计算向量空间上的

相似度来表示文本语义上的相似度

，

极大地提高了

效率

。

在大量的短文本实验中

，Word2vec

表现出了

优秀的处理能力

，

可以为短文本数据寻求更加深层

次的特征表示

。Word2vec

训练后的词向量可以处

理很多自然语言的工作

，

如分类

、

聚类

、

求同义词

、

词

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余5页未读，立即下载

评论收藏

内容反馈

UEgood雪姐姐

粉丝: 31
资源: 319

微博文本的句向量表示及相似度计算方法研究_段旭磊1

评论0

最新资源

微博文本的句向量表示及相似度计算方法研究_段旭磊1

评论0

文本语义相似度计算方法研究及应用

基于词向量的句子相似度计算及其应用研究_郭胜国1

一行代码使用BERT生成句向量，BERT做文本分类、文本相似度计算

word2vec词向量训练及中文文本相似度计算 【源码+语料】

基于词向量的词语相似度计算

word2vec词向量训练及中文文本相似度计算

易语言向量法计算文本相似度

论文研究-基于词汇语义信息的文本相似度计算.pdf

julicedu.zip_matlab 欧氏距离_向量相似度_改进距离_相似度距离_距离相似度

根据word2vec词向量进行文本相似度分析

论文研究-基于VSM的文本相似度计算的研究.pdf

SIF词向量相似度计算的一种方法

词林，知网，字符向量，用于自然语言处理中的文本相似度计算

基于Hadoop的文本相似度计算

论文研究-基于词向量的微博事件追踪方法.pdf

测量两个向量之间的余弦相似度_PHP_代码_相关文件_下载

cos.zip_-baijiahao_python 实现计算余弦相似度_text similarity_travel5we_相似

向量相似度的计算

BurpLoaderKeygen.jar.zip

最新版ISO/IEC 27001:2022、ISO 27002:2022中英文合集

Goby红队版-win-x64-2.4.7版本

Chrome Header Editor 插件

ISO SAE 21434-2021 中文版.pdf

国赛ciscn2024-WP-re2-androidso-re(unidbg模拟执行Native层方法)

国赛ciscn2024-WP-re6-gdb-debug(伪随机数保护)

OpenVAS GVM 中文翻译补丁

安全认证cisp教材全套

STM32F103C8T6核心板-电路原理图1.PDF

最新资源

word2vec词向量训练及中文文本相似度计算【源码+语料】