特征融合的中文专利文本分类方法研究.docx资源-CSDN文库

版权申诉

文档资料

63 浏览量 2022-06-26 10:09:53 上传评论收藏 519KB DOCX 举报

资源推荐

资源详情

资源评论

1 引言

专利是世界上最大的技术信息源,包含了 90%~95%的世界科技信息

]

;作为

知识产权的核心要素,集中体现了科学技术的发展水平。专利不仅是企业乃至各

国争相掌握的重要资源,更是能促进人类科技成果普及、推动科技创新的重要动

力。近年来,随着海量数据的迸发,如何在庞大的网络信息资源中准确获取并高效

利用此信息源成为研究重点

]

。

专利文本分类任务作为专利挖掘的主要任务之一 ,在新专利的发表及检索工

作中具有重要意义,准确的专利文本分类不仅可以避免大量人工重复性工作,还能

使申请者及时避免重复性研究以及专利侵权,从而使专利产生巨大的经济价值

]

。

自动文本分类是自然语言处理（Natural Language Processing,NLP）领域

最经典的问题之一,实质是计算机将待分类文本根据其特征与数据库中已经分类

好的文本特征进行比对,将其映射到与其特征最接近的预定义类目中的过程

]

。

文本分类主要分为短文本分类和长文本分类两种。专利文本分类作为长文本分

类的一种,主要面临三个问题：第一,相比于短文本,长文本拥有更多属于不同类目

的核心词,从而更难理解语义信息;第二,专利在各类目中的分布非常不均衡 ,大约

80%的专利被归在 20%的类目中

]

;第三,专利文献用词规范严谨,歧义切分现象相

对较少,但专利发明人为垄断技术和达到专利审查的新颖性,会使用更加抽象的上

位词甚至自定义词

]

,因此专利中包含大量未登录词且基本都为专业术语

]

。随着

科技的发展与专利的增多,专利中的专有名词还在不断更新。

本文针对专利文本分类中含有大量专有名词的特性以及数据分布不均的问

题,提出一种特征融合的中文专利文本分类方法。首先,在研究数据分布后,调整数

据集结构,解决了数据集分布不均衡的问题。然后通过不断提取新的重要专有名

词更新词表 , 将经过 BERT （ Bidirectional Encoder Representation from

Transformers）预训练得到的句子向量与重要专有名词向量进行融合,并将专有

名词的 TF-IDF（Term Frequency-Inverse Document Frequency）值作为权重

值进一步与句子向量进行特征融合,改善了专利文本因存在大量未登录词造成的

分类结果不理想的问题。

2 相关工作

早期的专利分类任务都是通过选择合适的特征表示文本,然后由传统机器学

习模型完成分类,如 Lewis 提出的朴素贝叶斯（Naïve Bayes,NB）

]

、Cover 等

提出的 k 邻近算法（k-Nearest Neighbor,k-NN）

[10

]

和 Cortes 等提出的支持向量

机（Support Vector Machine,SVM）

[11

]

等。但是,随着数据量的增多,复杂的特

征选择使这些方法具有很大的局限性。随着深度学习技术的发展 ,神经网络开始

应用于专利分类任务, 如递归神经网络（Recursive Neural Networks,RNN ）

[12

]

、卷积神经网络（Convolutional Neural Networks,CNN）

[13

]

,以及基于神经网

络改进的模型（如 2014 年 Kim 提出的 TextCNN

[14

]

、2018 年 Howard 等提出的

一种基于迁移学习的 ULMFiT

[15

]

等）。但是,这些方法特征表示单一,无法很好地

理解整个文本的语义。近年来 ,预训练语言模型 ,如 ELMo（Embeddings from

Language Models）

[16

]

和 GPT（Generative Pre-Training）

[17

]

已经被证明可以

有效改善自然语言处理任务的效果。通过语料预训练,得到特征表示仅需微调即

可以应对不同的下游任务,相比于设计复杂巧妙的网络结构,预训练语言模型体现

出很大的优势。但是 ,ELMo 和 GPT 的主要局限在于标准语言模型是单向

的,GPT 只考虑了上文的信息;ELMo 两个方向的语言模型是分别独立训练再进行

拼接,其本质仍是单向的。而 2018 年谷歌发布的 BERT

[18

]

通过海量语料预训练,

得到序列当前最全面的局部和全局特征表示。 BERT 引入 MLM （ Masked

Language Model ）训练深度双向语言表示向量 , 使用双向 LM （ Language

Model）做模型预训练,遮住句子中某些词,让编码器进行预测,以此学习上下文的

关系,从而更好地理解语义信息。但在专利文本分类任务中,BERT 无法解决专利

文本中存在大量未登录词的问题。

受 Wu 等

[19

]

提出用于关系分类任务的 BERT 语言模型结合目标实体方法的启

发,本文提出一种基于特征融合的中文专利文本分类方法。首先通过 BERT 得到

句子的特征向量表示。其中[CLS]位置的嵌入层输出能够表达整个句子的信息,因

此作为整个文本的句子向量输出,这在一定程度上缓解了专利文本分类的语义理

解困难的问题。此外,根据专利文本由不断更新的专有名词构成其主要内容的特

点,本文提出的文本分类方法将专有名词向量与句子向量进行特征融合,根据专利

文本语言特性自动抽取专利文本中的专有名词 ,生成词表并进行标记。使用

BERT 学习其特征生成特征向量,由于部分专有名词只起到解释说明的作用,不是

文本的关键信息,为了区分专有名词在文本中的不同重要程度,通过捕捉输入序列

的词频特征及整个语料库的逆文本频率特征,经过计算得到专有名词的 TF-IDF

值作为权重赋予词向量表示,然后将带有权重的词向量与句子向量进行融合,在强

调专有名词特征的同时还区分了不同专有名词的重要程度,在一定程度上解决了

专利文本分类充满不断更新的技术术语导致难以学习其特征的困难。在数据集

划分时,笔者仔细研究了专利在各类目中的分布,由于未来的专利类目分布还会存

在不均衡的问题,所以不能将现有分布不均衡的专利直接进行均衡化处理。经过

不断尝试与调优,本文以数据集类目分布为基础,将各类目的数据按其对数比值进

行均衡调优,再按规则划分为训练集、验证集和测试集。该方法在一定程度上缓

解了专利在各类目中的分布高度不均衡所导致的学习困难以及召回率低的问题。

3 基于特征融合的中文专利文本分类方法

专利文本包含大量未登录词,包括：复合词和派生词、略缩语、专有名词、

数字类复合词等。专利文本中的未登录词包括专利发明人的自定义专有名词以

及复合专有名词、派生专有名词等。在专利文本中,这些专有名词能在很大程度

上代表专利的创新内容,因此,本文提出将专有名词特征与句子特征进行特征融合

的中文专利文本分类方法。但是,一篇专利中不同专有名词的重要程度不同,有的

专有名词仅用于解释说明,不能代表该专利的创新内容,因此需要对专有名词的重

要程度进行区分。本文采用 TF-IDF 值作为衡量专有名词重要程度的标准,将一

篇专利中的所有专有名词按 TF-IDF 值的大小进行排序,排名靠前的专有名词称

为重要专有名词。

本文提出的基于特征融合的中文专利文本分类方法 ,首先针对专利文本进行

专有名词提取,并将提取结果加入专有名词词表,<@ekek> </@ekek>这两个指示

符中间的内容即为专有名词,其中•kk 表示第 k 个专有名词。一个从本文数据集中

选取的句子示例如图• •

••••

1••

••

所示。

图 1

剩余16页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3543
资源: 1万+

特征融合的中文专利文本分类方法研究.docx

基于专利多属性融合的技术主题划分方法研究.docx

基于双通道特征融合的WPOS-GRU专利分类方法

面向中文专利SAO结构抽取的文本特征比较研究_饶齐1

论文研究-一种多特征融合的外观设计专利图像检索方法.pdf

基于多特征融合的中文文本分类研究.docx

基于BERT-AWC的文本分类方法研究.docx

基于优化PSO-BP的多特征融合图像识别算法研究.docx

基于大数据可视化技术的水资源审计方法研究.docx

基于大数据分析的金融反欺诈建模方法研究.docx

基于美丽乡村建设的山地村落公共设施建设方法研究.docx

数据挖掘文本分类实验报告.docx

基于机器学习的文本情感多分类的学习与研究.docx

基于改进文本表示的商品文本分类算法研究.docx

基于深度学习的智能安防实时开窗检测报警系统及方法研究.docx

大数据背景下审计数据采集技术与方法的研究.docx

基于原型学习与深度特征融合的脑功能连接分类方法研究.docx

基于Arduino的无线传感器网络室内定位方法的研究.docx

基于像素级的图像融合方法研究.docx

基于FastText的新闻文本多分类研究.docx

基于IHS变换的遥感影像融合方法研究.docx

基于多源数据的全特征土地覆盖分类方法研究.docx

文本分类算法.docx

全国计算机等级考试二级Python真题及解析.docx

1000份ppt模版，PPT模板优秀PPT

matlab批量读取excel表格数据并处理画图

导入证书可以解决”无法建立到信任根颁发机构的证书链"问题。

OpenCv车辆识别训练模型

代码随想录知识星球精华-大厂面试八股文第二版v1.2.pdf

数学建模对乙醇偶合制备C4烯烃的问题研究

最新资源