【免费】论文研究-基于Word2vec词向量的文本关键字抽取.pdf资源-CSDN文库

需积分: 0 5 浏览量 2019-08-24 18:19:36 上传评论 1 收藏 768KB PDF 举报

自然语言处理是计算机科学和人工智能领域的一个重要分支，它旨在研究人类语言和计算机之间的交互。在这项研究中，李清和朱文浩两位研究人员探讨了如何通过Word2vec词向量模型从大量文本信息中抽取关键词。关键词提取在文本挖掘领域是一个核心研究课题，它能够帮助人们快速而准确地从大规模的文本数据中获取所需信息。随着信息技术的飞速发展，数据量呈现爆炸式的增长，这为关键词提取技术的研究带来了新的挑战和机遇。目前，大部分文本资料并未直接提供关键词，而现有的关键词提取算法在处理词组关键字以及文章中未出现但与文章内容紧密相关的词语时，仍然面临着挑战。为了应对这些问题，李清和朱文浩提出了基于词向量模型的关键词提取方法。这种方法通过使用Word2vec算法来训练词向量，进而将文本中的概念空间转化为计算机可以处理的可计算空间。 Word2vec是Google在2013年开发的一种词嵌入算法，它能够将词语表示成稠密的实数向量形式，捕捉词语之间的语义关系。词向量的训练基于大量的语料库，通过学习词语的上下文信息，将语义相似或相近的词语映射到向量空间中的相近点。这种方法的优点是能够将词与词之间的关系转化为数学上的距离，从而使得基于距离的相似性度量变得可行。研究中所提到的关键词提取方法具体流程如下：对大规模的文本数据进行预处理，提取其中的单词和已知的关键字集。这些单词和关键字通过Word2vec训练方法转化为词向量集合。当需要对新的文本进行关键词提取时，该文本中的单词被词向量表示，然后利用欧几里得距离计算测试文本单词向量与关键字词向量间的距离。距离最小的TOPN个关键字被选取出来，作为自动抽取的文本关键词。这种方法能有效地提高词组关键词提取的精度，并且能够发现那些在原文中没有出现但在语义上与原文紧密相关的词语。实验采用了计算机领域的论文集作为训练文本，验证了提出的方法在提高词组关键词提取精度方面的有效性，并且能够识别出不在原文中直接出现但与文章内容密切相关的关键词。这一研究结果对于信息检索、数据挖掘以及其他需要从大量文本中提取有用信息的领域具有重要的实践价值。文章提到的关键词包括了“自然语言处理”，“信息抽取”以及“词向量”。这些关键词揭示了研究的内容、应用领域以及所使用的工具。通过这种方法，研究人员可以更有效地管理和分析庞大的文本数据集，挖掘出其中的潜在价值。随着技术的不断进步，未来在自然语言处理领域，尤其是文本挖掘和关键词提取方面，定会出现更多创新和突破。

资源推荐

资源详情

资源评论

http://www.paper.edu.cn

- 1 -

中国科技论文在线

基于 Word2vec 词向量的文本关键字抽取

李清

，朱文浩

，卢志国

2**

基金项目：国家自然科学基金(61303097);国家教育部博士点基金资助项目(20123108120026)

作者简介：李清(1991-)，女，学生，主要研究方向：信息抽取，数字图书馆

通信联系人：卢志国，男，副研究员，主要研究方向：数字图书馆. E-mail: luzg@staff.shu.edu.cn

（1. 上海大学计算机工程与科学学院，上海 200444；

2. 上海大学图书馆，上海 200444） 5

摘要：信息技术的不断发展使得许多领域信息呈现爆炸式增长，如何从大规模文本信息中快

速而准确地获取所需信息成为一个巨大的挑战。关键词提取就是一种解决上述问题的有效手

段,是文本挖掘领域研究的核心技术之一，起着十分重要的作用。目前绝大多数文本信息还

尚未提供关键词，纵观已经存在的关键词提取算法，对于词组关键字以及文章中尚未出现但10

是仍可作为文章关键字的词语，还无法很好地找到解决方法；为此本文提出了基于词向量的

关键字提取方法。使用 word2vec 算法训练词向量，通过词向量的表达，文本的概念空间转

化为可计算空间。此方法将所有训练文本中出现的单词及关键字集，通过 word2vec 的训练

方法，转化为词向量集合，之后将测试文本单词用词向量表示，通过计算测试文本单词词向

量和关键字词向量间的欧式距离，找出距离最小的 TOP N 个关键字，作为自动提取文本关15

键字。实验使用论文集作为训练文本，结果表明此方法提高了词组关键词提取的精度而且能

找出不包含在文本中的关键字。

关键词：自然语言处理，信息抽取；关键词提取；词向量

中图分类号：TP301.6

Using Word2vec to Extract Abstract Keywords

Li Qing

, ZHU Wenhao

, LU Zhiguo

(1. School of Computer Engineering and Science, Shanghai University, Shanghai 200444;

2. Shanghai University Libraries,Shanghai 200444)

Abstract: The continuous development of information technology makes many domains of 25

information exploding, Obtaining the required information from the large-scale text in a quick and

accurate way has became a great challenge. Keyword extraction is a kind of effective method to solve

these problems. It is one of the core technology in the research of text mining, plays a very important

role. Currently, the majority of text information has yet to provide keywords, throughout the already

existing keyword extraction algorithms, the phrase keywords and the keywords which don’t appeared 30

in an article, still haven’t found a solution very well. To solve this problem, the paper proposes the

keyword extraction method based on word vector. Via to train the word vectors using word2vec

algorithm, the concept of text turn into computer understandable space. This method trains all the

words and keywords which appear in the text into vector set through word2vec training method, then

the word in the test text will replace by word term vectors, through calculating them with the keyword 35

vectors by the Euclidean distance, finding the smallest TOP N distance keywords as the automatic

text extraction keyword. The experiment used computer field papers as the training text, the results

shows that this method can improve the accuracy of the phrase keyword extraction and find the

keywords which don’t contain in the text.

Key words: Natural Language Processing; Information Extraction; Keyword Extraction; Word Vectors 40

http://www.paper.edu.cn

- 2 -

中国科技论文在线

0 引言

关键词自动提取技术是解决海量文本检索的最有效手段，同时也是文档检索、文档比较、45

摘要生成、文档分类和聚类等文本处理研究的基础性工作。关键词准确的概括了文章的主题

信息，帮助读者迅速掌握文章主旨，大大提高信息访问的效率，具有明显的现实意义。现有

的关键词自动提取算法仍面临着一些问题，比如一词多义、同义词冗余表达、词库更新的动

态性、跨领域的内容复杂性等。

在大部分关键词提取算法中，比如

[1]

和

[2]

都是把文本中连续出现的几个词序列看成候选50

关键词短语，可是并没有充分考虑到这些词序列是否符合认可的短语形式。在

[3]

中使用了分

离模型，对关键单词和词组进行单独处理，设计了不同特征以提高抽取的准确性，对关键词

串提升效果明显，但是对关键词整体提取效果却不如传统的关键词提取算法。

之前的自动抽取关键字算法主要依靠手工选取特征，

[4]

中给出了关键词自动提取过程中

一些经典特征的全面介绍。然而启发式的手工选取特征的过程需要先验知识，而且是整个系55

统中最耗时和耗计算的部分。深度学习是机器学习的一个新的领域，其动机

[5]

在于建立模拟

人脑机制来解释数据并进行分析学习的神经网络，是无监督学习的一种。其自动地学习有用

特征，省去手工选取特征的这一过程，将不可计算问题变得可计算。2013 年，google 开源

的 word2vec 工具

[6]

，利用深度学习的思想，通过训练，把文本内容处理简化为 K 维向量空

间的向量运算，使向量空间的相似度用来表示文本语义上的相似度，为文本数据寻求更深层60

次的特征表示。

本文认为所含信息量大，能包含文章最多语义信息的词语较能提取为文章的候选关键

词。本文借助深度学习的思想，利用 word2vec 训练词向量，两词向量的距离越小就说明两

词的语义更相近，通过文本单词和关键词集的向量计算，选取出最接近文本全部语义信息的

关键词，本文方法能很好的解决一词多义和同义词冗余表达对文本选取关键词造成影响的问65

题。

1 相关工作

关键字自动提取通过对文章内容进行分析，按照一定的比例，提取出最能表达文章主旨

的关键字。国内外诸多学者已经进行了很多颇有价值和成效的研究，取得了一定的成果。文

献

[7]

开始进行自动标注(text annotation)的研究，五十多年来，基于自动标注技术的自动关键70

字提取技术一直没有停止过研究。目前来说，自然语言处理有关关键词的自动提取方法的研

究主要分为三个方向：1.基于统计的方法；2.机器学习方法；3.基于语义的方法。

另一方面，word2ve

[6]

是 Google 在 2013 年开源的将词表征为实数值向量的高效工具。

此工具基于深度学习思想，用于解析自然语言，将单词转化为词向量。通过转换，可以把对

文本内容的处理简化为向量空间的向量运算

[8]

，通过向量空间上的相似度来表示文本语义上75

的相似度。

1.1 关键词自动提取方法

在

[9]

中提到，自动关键字提取算法主要分为以下三类：

一：基于统计的关键词提取方法，包括词频，TF-IDF 等统计信息。

[10]

中提到的改进的

tf-idf 提取方法就是利用段落标注技术合并相似度较高的词语，并通过词语逆频率 tf-iwf 算80

法，按权值排序得到关键词。此方法虽然简单易行，适用性比较强，但是关键词提取的准确

剩余7页未读，继续阅读

评论收藏

内容反馈

weixin_39840650

粉丝: 413
资源: 1万+

论文研究-基于Word2vec词向量的文本关键字抽取 .pdf

最新资源

论文研究-基于Word2vec词向量的文本关键字抽取 .pdf

google word2vec相关论文

论文研究-基于word2vec的跨领域情感分类方法 .pdf

word2vec.rar

在python下实现word2vec词向量训练与加载实例

论文研究-基于互信息的中文术语抽取系统.pdf

关键词抽取方法的研究.PDF

keyword_extraction:使用Word2Vec提取关键字

Word2Vec 字词的向量表示法

基于 word2vec 计算文本相似度的话题聚类研究

python实现嵌入Word2vec词向量的CNN中文文本分类.zip

词向量-word2vec中的数学原理详解.pdf

基于gensim-word2vec+svm文本情感分析.完整代码数据可直接运行

词向量-嵌入word2vec词向量的RNN+attention中文文本分类.zip

论文研究-基于Bivariate模型的非抽取小波域图像复原.pdf

基于Word2Vec的微博文本分类研究

word2vec

word2vector

最新资源