没有合适的资源?快使用搜索试试~ 我知道了~
特征融合的中文专利文本分类方法研究.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 63 浏览量
2022-06-26
10:09:53
上传
评论
收藏 519KB DOCX 举报
温馨提示
试读
17页
特征融合的中文专利文本分类方法研究.docx
资源推荐
资源详情
资源评论
1 引言
专利是世界上最大的技术信息源,包含了 90%~95%的世界科技信息
[1
]
;作为
知识产权的核心要素,集中体现了科学技术的发展水平。专利不仅是企业乃至各
国争相掌握的重要资源,更是能促进人类科技成果普及、推动科技创新的重要动
力。近年来,随着海量数据的迸发,如何在庞大的网络信息资源中准确获取并高效
利用此信息源成为研究重点
[2
]
。
专利文本分类任务作为专利挖掘的主要任务之一 ,在新专利的发表及检索工
作中具有重要意义,准确的专利文本分类不仅可以避免大量人工重复性工作,还能
使申请者及时避免重复性研究以及专利侵权,从而使专利产生巨大的经济价值
[3
]
。
自动文本分类是自然语言处理(Natural Language Processing,NLP)领域
最经典的问题之一,实质是计算机将待分类文本根据其特征与数据库中已经分类
好的文本特征进行比对,将其映射到与其特征最接近的预定义类目中的过程
[4
,5
]
。
文本分类主要分为短文本分类和长文本分类两种。专利文本分类作为长文本分
类的一种,主要面临三个问题:第一,相比于短文本,长文本拥有更多属于不同类目
的核心词,从而更难理解语义信息;第二,专利在各类目中的分布非常不均衡 ,大约
80%的专利被归在 20%的类目中
[6
]
;第三,专利文献用词规范严谨,歧义切分现象相
对较少,但专利发明人为垄断技术和达到专利审查的新颖性,会使用更加抽象的上
位词甚至自定义词
[7
]
,因此专利中包含大量未登录词且基本都为专业术语
[8
]
。随着
科技的发展与专利的增多,专利中的专有名词还在不断更新。
本文针对专利文本分类中含有大量专有名词的特性以及数据分布不均的问
题,提出一种特征融合的中文专利文本分类方法。首先,在研究数据分布后,调整数
据集结构,解决了数据集分布不均衡的问题。然后通过不断提取新的重要专有名
词 更 新 词 表 , 将 经 过 BERT ( Bidirectional Encoder Representation from
Transformers)预训练得到的句子向量与重要专有名词向量进行融合,并将专有
名词的 TF-IDF(Term Frequency-Inverse Document Frequency)值作为权重
值进一步与句子向量进行特征融合,改善了专利文本因存在大量未登录词造成的
分类结果不理想的问题。
2 相关工作
早期的专利分类任务都是通过选择合适的特征表示文本,然后由传统机器学
习模型完成分类,如 Lewis 提出的朴素贝叶斯(Naïve Bayes,NB)
[9
]
、Cover 等
提出的 k 邻近算法(k-Nearest Neighbor,k-NN)
[10
]
和 Cortes 等提出的支持向量
机(Support Vector Machine,SVM)
[11
]
等。但是,随着数据量的增多,复杂的特
征选择使这些方法具有很大的局限性。随着深度学习技术的发展 ,神经网络开始
应用于 专利分类 任务, 如递归 神经网络(Recursive Neural Networks,RNN )
[12
]
、卷积神经网络(Convolutional Neural Networks,CNN)
[13
]
,以及基于神经网
络改进的模型(如 2014 年 Kim 提出的 TextCNN
[14
]
、2018 年 Howard 等提出的
一种基于迁移学习的 ULMFiT
[15
]
等)。但是,这些方法特征表示单一,无法很好地
理解整个文本的语义。近年来 ,预训练语言模型 ,如 ELMo(Embeddings from
Language Models)
[16
]
和 GPT(Generative Pre-Training)
[17
]
已经被证明可以
有效改善自然语言处理任务的效果。通过语料预训练,得到特征表示仅需微调即
可以应对不同的下游任务,相比于设计复杂巧妙的网络结构,预训练语言模型体现
出 很 大 的 优 势 。 但 是 ,ELMo 和 GPT 的 主 要 局 限 在 于 标 准 语 言 模 型 是 单 向
的,GPT 只考虑了上文的信息;ELMo 两个方向的语言模型是分别独立训练再进行
拼接,其本质仍是单向的。而 2018 年谷歌发布的 BERT
[18
]
通过海量语料预训练,
得 到 序 列 当 前 最 全 面 的 局 部 和 全 局 特 征 表 示 。 BERT 引 入 MLM ( Masked
Language Model ) 训 练 深 度 双 向 语 言 表 示 向 量 , 使 用 双 向 LM ( Language
Model)做模型预训练,遮住句子中某些词,让编码器进行预测,以此学习上下文的
关系,从而更好地理解语义信息。但在专利文本分类任务中,BERT 无法解决专利
文本中存在大量未登录词的问题。
受 Wu 等
[19
]
提出用于关系分类任务的 BERT 语言模型结合目标实体方法的启
发,本文提出一种基于特征融合的中文专利文本分类方法。首先通过 BERT 得到
句子的特征向量表示。其中[CLS]位置的嵌入层输出能够表达整个句子的信息,因
此作为整个文本的句子向量输出,这在一定程度上缓解了专利文本分类的语义理
解困难的问题。此外,根据专利文本由不断更新的专有名词构成其主要内容的特
点,本文提出的文本分类方法将专有名词向量与句子向量进行特征融合,根据专利
文本 语言特 性自 动抽取专利文本中 的专 有名词 ,生成词表 并进行 标记 。使 用
BERT 学习其特征生成特征向量,由于部分专有名词只起到解释说明的作用,不是
文本的关键信息,为了区分专有名词在文本中的不同重要程度,通过捕捉输入序列
的词频特征及整个语料库的逆文本频率特征,经过计算得到专有名词的 TF-IDF
值作为权重赋予词向量表示,然后将带有权重的词向量与句子向量进行融合,在强
调专有名词特征的同时还区分了不同专有名词的重要程度,在一定程度上解决了
专利文本分类充满不断更新的技术术语导致难以学习其特征的困难。在数据集
划分时,笔者仔细研究了专利在各类目中的分布,由于未来的专利类目分布还会存
在不均衡的问题,所以不能将现有分布不均衡的专利直接进行均衡化处理。经过
不断尝试与调优,本文以数据集类目分布为基础,将各类目的数据按其对数比值进
行均衡调优,再按规则划分为训练集、验证集和测试集。该方法在一定程度上缓
解了专利在各类目中的分布高度不均衡所导致的学习困难以及召回率低的问题。
3 基于特征融合的中文专利文本分类方法
专利文本包含大量未登录词,包括:复合词和派生词、略缩语、专有名词、
数字类复合词等。专利文本中的未登录词包括专利发明人的自定义专有名词以
及复合专有名词、派生专有名词等。在专利文本中,这些专有名词能在很大程度
上代表专利的创新内容,因此,本文提出将专有名词特征与句子特征进行特征融合
的中文专利文本分类方法。但是,一篇专利中不同专有名词的重要程度不同,有的
专有名词仅用于解释说明,不能代表该专利的创新内容,因此需要对专有名词的重
要程度进行区分。本文采用 TF-IDF 值作为衡量专有名词重要程度的标准,将一
篇专利中的所有专有名词按 TF-IDF 值的大小进行排序,排名靠前的专有名词称
为重要专有名词。
本文提出的基于特征融合的中文专利文本分类方法 ,首先针对专利文本进行
专有名词提取,并将提取结果加入专有名词词表,<@ekek> </@ekek>这两个指示
符中间的内容即为专有名词,其中•kk 表示第 k 个专有名词。一个从本文数据集中
选取的句子示例如图• •
••••
••••
1••
••
••
所示。
图 1
图 1原文句子示例
Fig.1Example of Original Sentence
为了融合专利文本中重要专有名词的特征 ,需要对从专利文本中提取出的专
有名词进行标记,将标记好的文本数据经过 BERT 得到文本的句向量表示和专有
名词词向量表示,并进行特征融合。此外,为了强调不同专有名词在不同文本中的
重要程度,通过捕捉输入序列中专有名词的词频及其逆文本频率特征经计算得到
专有名词的 TF-IDF 值,将文本及专有名词的特征分别进行编码后得到向量表示,
对专有名词特征向量进行平均并乘以 TF-IDF 值作为权重与句子向量进行连接,
最后经过 Softmax 以预测专利文本的分类。
3.1 BERT 预训练模型
BERT 预训练模型是一种多层双向 Transformer 编码器,解决了传统语言模
型本质都是单向的局限性以及长期依赖问题。BERT 预训练模型有两个任务。一
是 MLM(Masked Language Model),即随机遮盖或替换一句话中的任意字,让
模型通过上下文预测被遮盖或替换的部分,因此模型在编码当前时刻词的时候不
能过于依赖当前词,而要考虑它的上下文。由此实现融合上下文预训练深层双向
特征表示。二是预测下一个句子。BERT 预训练阶段将上述两个任务结合起来同
时进行。BERT 模型结构如图• •
••••
••••
2••
••
••
所示。
图 2
剩余16页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3543
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功